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内 容 简介 


本 书 全 面 介绍 自动 机 器 学 习 ， 主 要 包含 自动 机 器 学 习 的 方法 、 实 际 可 用 的 自动 机 器 
学 习 系统 及 目前 所 面临 的 挑战 。 在 自动 机 器 学 习 方 法 中 ， 本 书 涵盖 超 参 优 化 、 元 学 习 、 
神经 网 络 架构 搜索 三 个 部 分 ， 每 一 部 分 都 包括 详细 的 内 容 介 绍 、 原 理解 读 、 有 具体 运用 
方法 和 存在 的 问题 等 。 此 外 ， 本 书 还 具体 介绍 了 现 有 的 各 种 可 用 的 AutoML 系统 ， 如 
Auto-sklearn, Auto-WEKA 及 Auto-Net 等 ， 并 且 本 书 最 后 一 章 详细 介绍 了 具有 代表 性 的 
AutoML 挑战 赛 及 挑战 赛 结果 背后 所 蕴含 的 理念 ， 有 助 于 从 业者 设计 出 自己 的 AutoML 
系统 。 

本 书 英文 版 是 国际 上 第 一 本 介绍 自动 机 器 学 习 的 英文 书 ， 内 容 全 面 且 翔实 ， 尤 为 重 
要 的 是 涵盖 了 最 新 的 AutoML 领域 进展 和 难点 。 本 书 作 者 和 译 者 学 术 背 景 扎 实 ， 保 证 了 
本 书 的 内 容 质量 。 

对 于 初步 研究 者 ， 本 书 可 以 作为 其 研究 自动 机 器 学 习 方 法 的 背景 知识 和 起 点 ， 对 于 
工业 界 从 业 人 员 ， 本 书 全 面 介绍 了 AutoML 系统 及 其 实际 应 用 要 点 ， 对 于 已 经 从 事 自动 
机 器 学 习 的 研究 者 ， 本 书 可 以 提供 一 个 AutoML 最 新 研究 成 果 和 进展 的 概览 。 总 体 来 说 ， 
本 书 受众 较为 广泛 ， 既 可 以 作为 入 门 书 ， 也 可 以 作为 专业 人 士 的 参考 书 。 
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向 博士 后 研究 人 员 、 好 未 来 教育 集团 数据 中 台 人 工 智能 算法 研 
究 员 。 主 要 研究 方向 为 深度 强化 学 习 、 自 动机 器 学 习 、 数 据 挖 
掘 与 知识 发 现 ， 侧 重 于 智慧 教育 领域 中 自 适 应 学 习 方法 的 研究 
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自动 机 器 学 习 CAutoMLO 在 工业 和 学 术 界 中 变 得 越 来 越 重要 ， 越 来 越 多 实际 问题 
的 解决 需要 专业 的 数据 分 析 和 机 器 学 习 的 应 用 ， 且 需要 我 们 根据 经 验 来 优化 这 些 技术 。 
目前 ， 数 据 分 析 专 业 教育 的 发 展 赶不上 技术 需求 的 增长 速度 ， 于 是 很 多 板块 出 现 了 能 力 
欠缺 。 虽 然 在 很 多 例子 中 我 们 可 以 很 容易 地 运用 机 器 学 习 ， 但 将 其 运用 到 位 却 很 难 。 

本 书 介 绍 了 可 以 帮助 数据 科学 家 的 工作 实现 自动 化 的 方法 ， 从 而 弥补 了 能 力 欠缺 。 
通过 在 优化 机 器 学 习 时 ， 用 机 器 智能 代 蔡 人 类 智能 ， 本 书 将 最 先进 的 机 器 学 习 用 入 门 级 
的 语言 进行 解释 。 除 了 第 一 篇 从 理论 的 角度 解释 了 自动 机 器 学 习 ， 在 本 书 的 第 二 篇 内 容 
中 也 给 出 了 十 分 具体 的 例子 ， 详 细 阑 述 了 运用 技术 来 实现 自动 优化 机 器 学 习 途 径 的 非常 
成 功 的 系统 。 如 果 读 者 感 兴趣 ， 可 以 下 载 这 些 系统 进行 尝试 。 本 书 的 第 三 篇 给 出 了 一 系 
列 实验 评估 的 概述 ， 对 实现 自动 机 器 学 习 的 不 同 途 径 进行 了 比较 。 

自动 机 器 学 习 领 域 发 展 十 分 迅速 ， 相 信 随 着 本 书 的 出 版 ， 也 会 发 生 很 大 的 改变 。 很 多 
企业 ， 如 谷歌 和 微软 ， 开 始 提供 它们 的 自动 机 器 学 习 服务 产品 。 目 前 的 研究 领域 主要 在 更 
加 复杂 的 自动 机 器 学 习 问题 上 ， 包 括 机 器 学 习 管道 和 更 深入 的 神经 网 络 架构 。 另 一 个 研究 
重点 在 于 如 何 将 这 些 方法 更 加 简便 地 运用 到 实际 工作 中 ， 尤 其 需要 考虑 它们 的 资源 需求 。 

中 国 在 人 工 智 能 〈Artificial Intelligence, AI) 领域 快速 崛起 ， 其 中 包括 机 器 学 习 和 
本 书 中 提 到 的 技术 。 我 衷心 地 向 本 书 的 译 者 何 明博 士 和 刘淇 教授 表示 感谢 ， 他 们 为 了 能 
让 中 国 的 人 工 智能 学 者 更 好 地 了 解 和 学 习 自 动机 器 学 习 技 术 ， 付 出 了 很 大 的 努力 。 希 望 本 
书 的 出 版 不 仅 能 够 给 诸位 读者 带 来 较 大 的 启示 ， 而 且 可 以 助 其 打造 出 自己 的 前 沿 机 器 学 习 
系统 。 


一 一 本 书 作 者 ， 美 国 怀俄明 大 学 助理 教授 拉 斯 。 特 霍 夫 ( Lars Kotthoff ) 


译 者 序 


近年 来 ， 人 工 智能 的 发 展 ， 可 谓 一 日 千里 。 然 而 较为 讽刺 的 是 ， 人 工 智能 这 一 致力 
于 让 机 器 变 得 更 为 智能 、 让 生活 变 得 更 为 美好 的 技术 ， 却 让 越 来 越 多 的 专家 花费 大 量 的 
时 间 投 入 调 参 这 类 很 不 “智能 ”的 工作 。 尤 其 是 随 着 人 工 智 能 的 发 展 ， 对 专业 知识 的 要 
求 越 来 越 高 ， 大 多 数 有 志 于 投身 于 或 想 要 使 用 人 工 智能 技术 的 人 对 其 望 而 生 戎 ， 无 法 充 
分 且 有 效 地 利用 已 有 的 人 工 智能 技术 , 使 得 人 工 智 能 技术 越 来 越 成 为 少数 群体 的 “专属 ”， 
这 与 人 工 智 能 的 初 囊 可谓 是 背道而驰 。 作 为 一 个 人 工 智能 的 爱好 者 和 从 业者 ， 我 一 直 有 
感 于 “人 工 智 能 技术 平权 ”的 重要 性 和 紧迫 性 。 如 何 让 人 工 智能 技术 切切 实 实 地 “ 飞 入 
寻常 百姓 家 ”， 我 想 ， 每 一 位 人 工 智能 从 业 人 员 都 应 当 仔细 思考 。 

自动 机 器 学 习 〈AutoML) ， 这 一 人 工 智 能 新 技术 的 出 现 和 大 范围 普及 ， 将 显著 降 
低 人 工 智能 技术 的 门槛 ， 极 大 地 扩大 人 工 智能 的 应 用 领域 和 普及 范围 ， 并 从 根本 上 促使 
人 工 智 能 这 一 “少数 派 ”的 “专属 ”技术 变 成 人 人 可 用 的 一 键 式 服务 ， 能 够 切切 实 实地 
让 人 工 智能 “ 飞 入 寻常 百姓 家 ”。 不 可 否认 的 是 ， 任 何 新 技术 的 发 展 总 是 会 伴随 着 不 解 
和 阵痛 ， 自 动机 器 学 习 也 不 例外 。 虽 然 该 技术 目前 还 存在 着 各 种 各 样 的 问题 ， 如 搜索 空 
间 规 模 巨 大 、 算 力 要 求 高 等 ， 但 瑕 不 掩 瑜 ， 只 要 前 进 的 方向 正确 ， 终 究 会 “柳暗花明 ”。 
如 同人 工 智能 自身 的 发 展 ， 亦 是 跌宕 起 伏 ， 但 今天 来 看 ， 恰 是 人 工 智能 之 前 的 谷底 ， 促 
使 了 人 工 智 能 今天 的 繁荣 。 尤 为 重要 的 是 , 不 管 是 低谷 还 是 高 峰 , 总 会 有 一 群 人 默默 耕耘 、 
碟 厅 前 行 ， 推 动 着 人 工 智能 一 步 一 步 走 到 今天 。 希 望 未 来 能 够 有 更 多 的 人 加 入 自动 机 器 
学 习 的 队伍 ， 一 起 推动 自动 机 器 学 习 的 发 展 ， 共 同 构建 平权 的 人 工 智能 技术 。 路 漫漫 其 
修 远 今 ， 吾 将 上 下 而 求索 ! 

近来 我 一 直 关 注 自动 机 器 学 习 的 发 展 ， 当 弗兰克 。 享 特等 几 位 作者 的 著作 《自动 机 
器 学 习 》《 英 文 版 ) 出 版 时 ， 我 便 第 一 时 间 拿 来 翻阅 。 该 书 对 自动 机 器 学 习 的 方法 、 系 
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统 和 挑战 做 了 非常 翔实 且 全 面 的 介绍 ， 尤 其 是 三 位 作者 一 直 投身 于 自动 机 器 学 习 ， 并 组 
织 开 发 了 相关 的 竞赛 、 平 台 和 系统 ， 推 动 了 自动 机 器 学 习 的 发 展 和 落地 ， 吸 引 了 越 来 越 
多 的 人 关注 并 投身 于 自动 机 器 学 习 。 该 书 不 仅 有 助 于 研究 者 更 好 地 开展 自动 机 器 学 习 相 
关 研 究 ， 也 有 助 于 工业 界 从 业 人 员 开发 出 自己 的 自动 机 器 学 习 系统 。 也 正 是 看 到 这 本 书 
的 作用 和 价值 ， 我 与 刘淇 教授 便 第 一 时 间 联 系 清华 大 学 出 版 社 着 手 进行 这 本 书 的 翻译 工 
作 ， 希 望 能 够 让 中 文 读者 尽快 地 阅读 和 学 习 此 书 ， 为 自动 机 器 学 习 的 普及 和 推广 尽 微薄 
cJ. 

在 这 里 ， 感 谢 清华 大 学 出 版 社 刘 洋 编辑 与 宋 亚 敏 编 辑 所 给 予 的 专业 指导 和 帮助 ， 感 
谢 徐 世 菌 同学 在 英语 翻译 方面 所 给 予 的 专业 协助 ， 感 谢 两 位 译 者 的 家 人 与 朋友 所 提供 的 
支持 和 帮助 ， 特 别 感谢 黎 若 在 翻译 过 程 中 的 支持 和 帮助 。 

由 于 我 们 水 平 有 限 ， 本 书 在 翻译 过 程 中 难免 存在 不 足 ， 奶 请 各 位 老师 和 同学 批评 
指正 ! 


何 明 
北京 
2020 年 4 月 
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“我 愿意 使 用 机 器 学 习 ， 但 是 我 投入 不 了 太 多 时 间 。” 在 工业 界 或 者 其 他 领域 的 研 
究 者 口中 ， 我 们 会 经 常 听 到 这 句 话 。 近 来 ， 对 于 机 器 学 习 免 手动 式 解 决 方案 的 迫切 需求 
促使 了 自动 机 器 学 习 领 域 的 快速 发 展 。 而 这 本 书 是 目前 自动 机 器 学 习 领 域 的 第 一 本 综合 
性 指导 书 ， 非 常 高 兴 看 到 此 书 出 版 。 

从 2014 年 我 们 的 自动 统计 项 目 启动 以 来 ， 我 个 人 便 一 直 对 自动 机 器 学 习 领域 充满 
着 激情 和 热情 。 而 且 ， 我 也 希望 我 们 能 够 对 该 领域 充满 雄心 与 野心 ， 让 机 器 学 习 和 数据 
分 析 的 各 个 流程 都 能 够 自动 化 ， 例 如 : 数据 自动 收集 、 实 验 自动 设计 ， 数 据 自动 清理 、 
缺失 数据 自动 填充 ， 特 征 自动 选择 和 转换 ， 模 型 自动 探索 、 评 价 和 解释 ， 计 算 资源 自动 
分 配 ， 超 参 自动 调 优 ， 自 动 推断 ， 模 型 自动 监控 和 异常 自动 检测 等 。 还 有 很 多 很 多 ， 这 
是 一 个 巨大 的 列表 ， 我 们 应 该 尽 可 能 地 让 这 一 切 都 变 得 自动 化 。 

需要 注意 的 是 ， 虽 然 全 自动 化 能 够 促进 科学 研究 ， 并 提供 一 个 长 远 的 工程 目标 ， 但 
实际 上 ， 更 加 理想 的 方案 是 : 在 开始 阶段 实现 半自动 化 ， 之 后 按 需 逐渐 取代 人 工 操作 。 
想 要 实现 全 自动 化 ， 我 们 需要 开发 出 更 为 强大 的 工具 ， 让 机 器 学 习 更 加 系统 化 《〈 目 前 机 
器 学 习 的 专属 性 和 定制 性 较 强 ) ， 并 且 更 加 高 效 。 

虽然 我 们 还 没有 实现 自动 化 的 终极 目标 ， 但 是 这 些 目标 本 身 是 非常 有 价值 的 。 而 且 
正如 书 中 所 阐述 的 ， 在 若干 任务 上 ， 当 前 的 自动 机 器 学 习 方法 已 经 能 够 超过 人 类 机 器 学 
习 专 家 。 随 着 我 们 在 自动 机 器 学 习 领 域 的 持续 研究 及 算 力 变 得 越 来 越 为 便宜 ， 这 种 趋势 
会 变 得 更 加 普遍 。 正 因 如 此 ， 自 动机 器 学 习 显 然 是 众多 研究 方 向 中 值得 被 关注 和 投入 研 
究 的 方向 之 一 。 当 下 ， 正 是 投入 时 间 和 精力 研究 自动 机 器 学 习 的 好 时 机 ， 而 本 书 便 是 一 
个 非常 好 的 研究 自动 机 器 学 习 的 起 点 。 

本 书 涵盖 了 我 们 所 需要 的 自动 机 器 学 习 领 域 的 最 新 实用 技术 ， 如 超 参 调 优 、 元 学 习 
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和 神经 网 络 架构 搜索 等 。 与 此 同时 ， 本 书 也 对 现 有 自动 机 器 学 习 系统 进行 了 深度 探讨 ， 
并 对 自 2015 年 以 来 主要 自动 机 器 学 习 系统 在 一 系列 竞赛 上 的 表现 进行 了 全 面 且 综合 性 
的 评估 。 基 于 此 ， 我 强烈 推荐 任何 有 志 于 投入 AutoML 领域 的 机 器 学 习 研 究 者 阅读 本 书 ， 
同时 推荐 那些 想 要 了 解 自动 机 器 学 习 工具 背后 的 方法 和 原理 的 实践 者 学 习 本 书 。 


卓 宾 。 加 拉 马 尼 

剑桥 大 学 教授 ， 谷 歌 Al 大 脑 团队 负责 人 ，Uber 前 首席 科学 家 
美国 旧金山 

2018 年 10 月 
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近 十 年 来 ， 不 管 是 机 器 学 习 相关 的 应 用 还 是 研究 ， 都 迎 来 了 爆发 式 增长 。 尤 其 是 深 
度 学 习 , 使 得 很 多 应 用 领域 都 取得 了 关键 性 突破 , 如 计算 机 视觉 语音 处 理 和 游戏 。 然而 ， 
多 数 机 器 学 习 方法 的 性 能 在 很 大 程度 上 依赖 于 过 量 的 模型 设计 策略 ， 这 导致 新 手 难以 较 
快 地 掌握 和 应 用 机 器 学 习 。 在 深度 学 习 上 更 是 如 此 ， 如 果 人 类 工程 师 想 要 让 神经 网 络 在 
特定 的 任务 上 取得 理想 的 表现 性 能 ， 就 需要 很 好 地 选择 和 设计 网 络 结构 、 学 习 过 程 、 正 
则 化 方法 及 超 参 等 。 另 外 ， 随 着 任务 的 不 同 ， 工 程 师 需要 重复 上 述 过 程 。 需 要 说 明 的 是 ， 
即使 是 专家 ， 在 一 个 特定 的 数据 集 上 ， 也 需要 经 过 多 次 的 迭代 和 试 错 才能 找到 一 组 良好 
的 网 络 配置 参数 ， 新 手 更 是 如 此 。 

自动 机 器 学 习 (AutoML) 由 在 以 一 种 数据 驱动 、 目 标 导向 及 自动 化 的 方法 实现 上 
述 过 程 。 换 言 之 ， 用 户 只 需要 提供 数据 ，AtuoML 系统 就 能 够 自动 学 习 出 使 得 该 应 用 取 
得 最 佳 性 能 的 机 器 学 习 模型 。 因 此 ， 自 动机 器 学 习 能 够 让 那些 想 要 使 用 机 器 学 习 方 法 但 
是 缺乏 机 器 学 习 资 源 或 背景 知识 的 领域 科学 家 使 用 到 最 新 的 机 器 学 习 模 型 。 这 可 以 被 视 
为 一 种 机 器 学 习 的 民主 化 ， 即 通过 AutoML， 每 个 人 都 能 获得 定制 化 的 且 达 到 行业 最 新 
水 准 的 机 器 学 习 模型 。 

正如 本 书 所 展现 的 ， 自 动机 器 学 习 方 法 已 经 成 熟 到 可 以 与 人 类 机 器 学 习 专 家 相 竞争 
的 水 平 ， 甚 至 在 有 些 时 候 ， 自 动机 器 学 习 的 表现 可 以 超越 人 类 机 器 学 习 专家 。 简 单 来 说 ， 
机 器 学 习 专 家 一 方面 比较 稀缺 ， 另 一 方面 人 力 成 本 较 高 ， 而 自动 机 器 学 习 却 可 以 在 节省 
大 量 时 间 和 金钱 的 前 提 下 提升 算法 性 能 。 自 动机 器 学 习 的 这 种 优势 使 得 自动 机 器 学 习 的 
商业 关注 度 在 近 几 年 得 到 极 大 提升 ， 而 且 几 家 有 影响 力 的 科技 公司 目前 正在 开发 自己 的 
AutoML 系统 。 需 要 强调 的 是 ， 让 机 器 学 习 民主 化 的 最 好 方式 是 通过 开源 的 自动 机 器 学 
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习 系统 ， 而 非 专营 付费 的 黑 盒 服务 。 

本 书 对 正在 快速 发 展 的 自动 机 器 学 习 领 域 进行 了 整体 介绍 。 值 得 说 明 的 是 ， 目 前 大 
家 都 非常 关注 深度 学 习 ， 导 致 很 多 研究 者 错误 地 将 自动 机 器 学 习 和 神经 网 络 架构 搜索 
(CNAS) 画 上 了 等 号 。 如 果 你 阅读 这 本 书 ， 你 就 会 了 解 到 ，NAS 只 是 自动 机 器 学 习 的 一 
个 极 佳 案例 ， 而 自动 机 器 学 习 实际 所 涵盖 的 内 容 远 不 止 NAS。 本 书 一 方面 可 以 为 那些 想 
要 研究 出 自己 的 自动 机 器 学 习 方法 的 研究 者 提供 背景 知识 和 起 点 ; 另 一 方面 可 以 为 那些 
想 要 将 自动 机 器 学 习 应 用 到 实际 问题 的 实践 者 提供 可 用 的 AutoML 系统 。 而 对 于 那些 已 
经 从 事 自动 机 器 学 习 的 研究 者 而 言 ， 本 书 可 以 提供 一 个 AutoML 最 新 研究 成 果 和 进展 的 
概览 。 根 据 自动 机 器 学 习 所 涵盖 的 内 容 ， 本 书 主要 分 为 三 个 篇 章 。 

第 一 篇 主要 对 自动 机 器 学 习 方 法 进行 介绍 ， 一 可 以 为 新 手提 供 全 面 的 自动 机 器 学 习 
概述 ， 二 可 以 为 有 自动 机 器 学 习 经 验 的 研究 者 提供 参考 。 具 体 如 下 : 

n 第 1 章 主要 讨论 超 参 调 优 、 自 动机 器 学 习 中 最 为 关键 和 普遍 的 问题 ， 同 时 介绍 

各 种 各 样 的 自动 机 器 学 习 方法 ， 并 对 那些 目前 较为 有 效 的 方法 进行 重点 介绍 和 
说 明 。 

n 第 2 章 主 要 介绍 如 何 学 会 学 习 ， 举 例 而 言 ， 如 何 利用 评价 机 器 学 习 模 型 中 的 经 
验 为 新 的 数据 设计 新 的 学 习 方法 。 这 样 的 技术 可 以 最 小 化 为 一 个 机 器 学 习 新 手 
向 一 个 机 器 学 习 专 家 的 转换 过 程 ， 同 时 能 够 极 大 地 降低 在 一 个 新 的 机 器 学 习 任 
务 上 获得 期 望 性 能 的 所 需 时 间 。 

= 第 3 章 主要 介绍 NAS 方法 。NAS 是 自动 机 器 学 习 领 域 中 最 具 挑 战 性 的 任务 ， 因 
为 神经 网 络 的 设计 空间 极其 巨大 且 神 经 网 络 的 单 次 评估 极其 耗 时 。 虽 然 NAS 相 
关 的 研究 极 具 挑战 性 ， 但 这 个 领域 的 研究 非常 活跃 ， 定 期 都 会 有 一 些 令 人 振奋 
的 解决 NAS 问题 的 新 方法 。 

第 二 篇 主要 介绍 了 新 手 也 可 以 使 用 的 自动 机 器 学 习 系 统 。 如 果 你 更 多 地 是 想 要 将 自 
动机 器 学 习 系 统 应 用 到 自己 的 实际 问题 上 ， 可 以 重点 学 习 该 篇 。 这 一 篇 中 的 章节 评估 所 
介绍 的 自动 机 器 学 习 系统 ， 目 的 是 让 读者 对 这 些 系统 在 实际 任务 中 的 表现 性 能 有 一 个 直 
观 的 认识 和 了 解 。 具 体 如 下 : 

= 第 4 章 介 绍 第 一 个 自动 机 器 学 习 系 统一 一 Auto-WEKA。 该 系统 主要 基于 WEKA 

机 器 学 习 工 具 包 ， 支 持 各 种 分 类 方法 、 回 归 方 法 自动 搜索 ， 同 时 支持 方法 所 对 
应 的 超 参 自动 设置 和 数据 自动 预 处 理 。 所 有 这 些 功能 可 以 直接 通过 WEKA 图 形 
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化 用 户 界面 一 键 点 击 使 用 ， 不 需要 一 行 代 码 。 

m 第 5 章 主 要 介绍 基于 scikit-learn 框架 的 自动 机 器 学 习 系 统一 一 Hyperopt-sklearn， 

同时 给 出 了 若干 个 如 何 使 用 该 系统 的 代码 案例 。 
= 第 6 章 介 绍 同样 基于 scikit-learn 工具 包 的 自动 机 器 学 习 系 统 
该 系统 使 用 了 与 Auto-WEKA 类 似 的 优化 方法 ， 同 时 增加 了 一 些 改进 ， 如 针对 
优化 热 启动 的 元 学 习 和 自动 集成 方法 。 此 外 ， 第 6 章 比 较 了 Auto-sklearn 和 自动 
机 器 学 习 系 统 Atuo-WEKA 及 Hyperopt-sklearn 的 性 能 。 在 两 个 不 同 的 版 本 上 ， 
Auto-sklearn 在 本 书 第 三 篇 所 介绍 的 自动 机 器 学 习 挑 战 赛 上 都 取得 了 最 好 成 绩 。 

m 第 7 章 介 绍 能 够 选择 深度 神经 网 络 结构 和 超 参 的 自动 深度 学 习 系 统一 一 Auto- 
Net。 在 自动 机 器 学 习 挑 战 赛 上 ， 一 个 早期 版 本 的 Auto-Net 所 生成 的 第 一 个 自动 
学 习 神 经 网 络 的 表现 性 能 超过 了 人 类 专家 所 设计 的 模型 。 

m 第 8 章 介绍 可 以 自动 组 建 和 优化 基于 树 的 机 器 学 习 管 道 的 自动 机 器 学 习 系 统一 一 
TPOT。 显 而 易 见 ， 这 些 经 过 自动 学 习 出 的 管道 的 灵活 性 明显 优 于 那些 以 预先 定 
义 好 的 连接 方式 所 形成 的 固定 机 器 学 习 管 道 。 

第 9 章 介 绍 自动 统计 系统 ， 该 系统 能 够 自动 生成 一 份 含有 数据 分 析 、 预 测 模型 
分 析 及 模型 性 能 比较 的 完整 数据 报告 。 尤 为 重要 的 是 ， 该 系统 能 够 以 自然 语言 
的 方式 对 分 析 结 果 进 行 表 述 ， 较 好 地 契合 了 非 机 器 学 习 专 家 的 需求 。 

最 后 ， 第 三 篇 ( 即 第 10 章 ) MA 2015 年 以 来 自动 机 器 学 习 系统 相关 的 挑战 赛 进行 
概述 。 介 绍 这 些 挑战 赛 的 目的 是 促进 从 业者 能 够 设计 出 在 实际 任务 中 表现 得 更 好 并 能 够 
从 众多 备 选中 挑 出 最 佳 模型 的 方案 和 方法 。 第 10 章 详细 介绍 这 些 挑战 赛 ， 以 及 相应 设 
计 和 过 往 挑 战 赛 结果 背后 所 蕴含 的 理念 和 概念 。 

据 我 们 所 知 ， 这 是 第 一 本 全 面 介 绍 自动 机 器 学 习 系 统 的 书 了?， 主 要 包含 自动 机 器 学 
习 的 方法 、 实 际 可 用 的 自动 机 器 学 习 系统 及 目前 所 面临 的 挑战 。 本 书 能 够 为 实践 者 提供 
开发 自己 的 AutoML 系统 所 需 的 背景 知识 和 方法 ， 同 时 提供 能 够 快速 应 用 到 广泛 的 机 器 
学 习 任务 中 的 自动 机 器 学 习 系统 的 详细 内 容 。 自 动机 器 学 习 领 域 的 发 展 可 谓 一 日 千里 ， 
我 们 希望 通过 这 本 书 能 够 对 近期 的 众多 进展 进行 组 织 和 梳理 。 同 时 ， 我 们 希望 诸位 读者 
能 够 喜欢 这 本 书 ， 加 入 日 益 壮 大 的 自动 机 器 学 习 队 伍 中 。 


Auto-sklearn。 


(D RHE: 本 书 英文 版 是 第 一 本 全 面 介绍 自动 机 器 学 习 系统 的 书 ， 在 译 者 翻译 过 程 中 ， 又 有 一 些 本 领域 的 
新 书 出 版 ， 特 此 说 明 。 
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概述 : 近年 来 ， 很 多 复杂 且 计 算 资源 要 求 高 的 机 器 学 习 模 型 吸引 了 业界 和 学 术 界 的 大 量 关注 ， 如 
自动 机 器 学 习 框 架 和 深度 神经 网 络 。 而 这 些 模 型 所 含有 的 大 量 超 参 ,促使 了 超 参 优化 (HPO) 这 
一 研究 领域 的 再 次 兴起 。 本 章 将 对 目前 主流 的 超 参 优化 相关 算法 进行 介绍 。 具 体 而 言 ， 本 章 首先 
讨论 基于 免 模 型 方法 和 贝 叶 斯 优化 的 黑箱 函数 优化 方法 。 然 而 ， 很 多 现 有 的 机 器 学 习 应 用 需要 大 
量 的 计算 资源 ， 导 致 纯粹 的 黑箱 优化 方法 运算 代价 极其 巨大 。 为 了 解决 此 不 足 ， 本 章 接 下 来 重点 
介绍 能 够 采用 更 少 黑 箱 函 数 变量 的 多 保 真 度 优化 方法 ， 该 方法 能 够 近似 评估 出 超 参 设 定 的 质量 和 
效果 。 最 后 ， 本 章 探 讨 超 参 优 化 相关 的 开放 性 研究 问题 和 未 来 的 研究 方向 。 


1.1 引 


Ill 


事实 上 ， 每 一 个 机 器 学 习 系统 都 会 有 超 参 ， 这 在 很 大 程度 上 导致 自动 设置 超 参 以 优 
化 算法 性 能 成 为 自动 机 器 学 习 领域 最 为 基础 和 重要 的 任务 。 尤 其 是 近期 被 广泛 使 用 的 深 
度 神 经 网 络 ， 其 性 能 极其 依赖 于 超 参 的 选择 ， 如 网 络 结构 、 正 则 化 参数 及 优化 的 方法 等 。 
自动 超 参 优化 (hyperparameter optimization, HPO) 在 实际 任务 中 有 一 些 非常 重要 的 应 
用 和 价值 ， 例 如 : 

m HPO 能 够 降低 运用 机 器 学 习 所 必需 的 人 为 工作 量 ， 这 在 自动 机 器 学 习 中 尤为 
重要 。 

a HPO 能 够 通过 将 机 器 学 习 算法 调整 成 适 配 于 手中 问题 的 方法 以 提高 算法 的 性 能 。 
目前 ， 部 分 研究 ( 如 参考 文献 [105，140] ) 表明 ,在 一 些 重要 的 机 器 学 习 基 准 上 ， 
通过 这 种 方式 已 经 取得 了 新 的 性 能 纪录 。 

© JW. 49 (x. xx xA 
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= HPO 能 够 提高 科学 研究 的 复 现 性 和 公平 性 。 显 而 易 见 ，HPO 比 人 为 搜索 的 复 现 
可 能 性 要 高 。 与 此 同时 ，HPO 能 够 提高 科学 研究 的 公平 性 。 因 为 想 要 公平 地 比 
较 在 同一 个 问题 上 不 同方 法 的 优 劣 ， 公 平 的 比较 方式 应 该 是 这 些 参 与 比较 的 方 
法 获得 同等 程度 的 调 优 14 199. 

HPO 问题 的 研究 最 早 可 以 追溯 到 20 世纪 90 年 代 〈 如 参考 文献 [77，82，107， 
126]) ， 早 期 关于 HPO 的 研究 更 多 的 是 为 不 同 的 数据 集 设置 比较 好 的 超 参 配置 。 而 通 
过 HPO 将 通用 的 流程 适 配 到 特定 的 应 用 领域 上 反而 是 一 个 比较 新 的 视角 0. Sun, 
大 众 也 普遍 认为 经 过 调 优 的 超 参 性 能 能 够 超越 普通 机 器 学 习 库 所 提供 的 默认 设置 的 性 
能 [100, 116, 130, 149] 。 

机 器 学 习 在 工业 界 的 应 用 范围 越 来 越 广 , 使 得 HPO 所 蕴含 的 商业 价值 也 越 来 越 大 ， 
在 工业 界 中 所 起 到 的 作用 也 越 来 越 重要 。 举 例 而 言 ，HPO 不 仅 可 以 作为 公司 自己 内 部 
的 使 用 工具 响 ， 而 且 可 以 作为 机 器 学 习 云 服 务 的 一 部 分 8 叫 ， 再 者 HPO 自身 就 是 一 种 
服务 uon, 

不 可 否认 的 是 ，HPO 自身 所 面临 的 一 些 挑战 导致 HPO 的 落地 过 程 变 得 非常 困难 。 

在 较 大 的 模型 (如 深度 学 习 ) 、 复 杂 的 机 器 学 习 管 道 或 者 大 数据 集 上 ， 函 数 求 

解 的 运算 代价 极其 巨大 。 

= 超 参 的 配置 空间 通常 而 言 较 为 复杂 且 维度 较 高 ， 因 为 超 参 种 类 繁多 ， 如 连续 型 
超 参 、 类 别 型 超 参 和 条 件 型 超 参 。 再 者 ， 在 实际 应 用 中 ， 很 难 提前 明确 需要 优 
化 的 超 参 和 不 需要 优化 的 超 参 ,以 及 超 参 的 范围 ， 这 些 因素 都 不 同 程度 地 加 剧 
了 超 参 配置 空间 的 复杂 度 和 难度 。 

a 一 般 而 言 ， 无 法 直接 获得 超 参 损失 函数 的 梯度 值 。 另 外 ， 在 经 典 优化 领域 中 ， 

目标 函数 的 一 些 特性 难以 直接 应 用 到 超 参 优化 ， 如 函数 的 凸 性 和 平滑 性 。 

m 此 外 , 受 限 于 训练 数据 集 的 规模 , 在 实际 应 用 中 , 无 法 直接 优化 超 参 的 泛 化 性 能 。 

对 此 主题 感 兴趣 的 读者 可 以 进一步 阅读 其 他 的 HPO 参考 文献 ， 如 参考 文献 [64，94] 。 

本 章 结构 如 下 : 首先 ，1.2 节 将 HPO 研究 形式 化 ， 并 对 其 相关 的 变 体 进行 了 讨论 ; 
接 下 来 ，1.3 节 主 要 介绍 求解 HPO 问题 的 黑箱 优化 算法 ， 随 后 ，1.4 节 重 点 介绍 多 保 真 
度 求解 算法 ， 该 算法 通过 采用 近似 性 能 评价 方法 而 非 全 模型 评价 方法 显著 提升 了 HPO 
的 适用 范围 ， 能 够 将 HPO 直接 运用 到 运算 代价 巨大 的 模型 上 。 为 了 让 读者 对 HPO 有 一 
个 更 为 全 面 地 认识 ，1.5 节 给 出 了 一 些 重要 的 超 参 优化 系统 和 在 AutoML 上 典型 应 用 的 
概述 。 最 后 ，1.6 节 对 一 些 开 放 性 问题 进行 了 讨论 。 


4 自动 机 器 学 习 ( AutoML ) : 方法 、 系 统 与 挑 上 
1.2 问题 定义 


以 A 表示 一 个 具 及 个 超 参 的 机 器 学 习 算 法 ， 第 n 个 超 参 的 定义 域 表 示 为 4 MA 
的 超 参 配 置 空间 为 4=4 x 和 x…x 妨 。 超 参 的 某 一 组 配置 表示 为 向 量 1e 4， 被 参数 4 实 
例 化 的 机 器 学 习 算 法 用 A 来 表示 。 

超 参 的 定义 域 类 型 较为 广泛 ， 主 要 有 : 实数 变量 ， 如 学 习 率 ; 整 型 变量 ， 如 网 络 的 
层 数 ; 二 值 变量 ,如 是 否 使 用 提前 停止 策略 ; 类 型 变量 , 如 优化 器 的 选择 。 在 实际 任务 中 ， 
整数 型 超 参 和 实数 型 超 参 在 大 多 数 情况 下 是 有 界 的 ， 只 有 少数 例外 Uo us 130, 

除 此 之 外 ， 超 参 的 配置 空间 也 可 以 包含 条 件 ， 即 当 某 个 超 参 或 若干 超 参 的 组 合 取 特 
定 值 时 ， 另 一 个 超 参 才 有 意义 。 一 般 而 言 ， 条 件 空 间 采用 有 向 无 环 图 来 表示 。 在 实际 应 
用 中 ， 条 件 空间 经 常 存在 ， 如 在 自动 调整 机 器 学 习 管道 时 ， 不 同 预 处 理 过程 和 机 器 学 习 
算法 的 选择 被 建 模 成 类 别 型 超 参 ， 这 类 问题 也 称 为 全 模型 选择 (FMS) 或 组 合算 法 选择 
与 超 参 优化 问题 《CASH) Bo 36 83 4。 又 如 ， 在 优化 神经 网 络 结构 时 也 存在 条 件 空 间 。 
举例 而 言 ， 可 将 网 络 的 层级 设置 为 整 型 超 参 ， 而 只 有 当 网 络 的 深度 大 于 等 于 ;时 ， 第 ; 层 
相关 的 超 参 才 会 被 激活 I SI, 

给 定数 据 集 D， 自 动 超 参 优化 的 目标 形 如 : 

v= argmin Ep, jy V (LA; Duas Duas) Ch) 


Xp. V(£ A, Dyan» Das) 主要 用 来 衡量 具有 超 参 4 的 算法 A 在 训练 数据 D ran 和 验证 数 
HE Dw 上 的 损失 。 在 实际 工作 中 ， 只 需 利用 有 限 的 数据 D ~ 人 DD 去 近似 估计 式 (1.1) 的 期 
望 即 可 。 

关于 验证 方案 了 (,…*) ， 比 较 普 遍 的 选择 是 采用 留 出 法 或 者 交叉 验证 法 对 用 户 给 定 的 
损失 函数 进行 误差 计算 〈 如 误 分 类 比例 ) 。 在 参考 文献 [16] 中 ，Bischl 等 对 验证 方案 的 相 
关 研 究 进行 了 梳理 和 概述 。 有 一 些 专门 用 来 降低 评估 时 间 的 策略 ， 如 只 在 交叉 数据 的 子 集 
上 对 机 器 学 习 算 法 进行 测试 wj， 或 者 直接 采用 数据 的 子 集 对 算法 进行 验证 Ve 102 m, 
又 或 者 采用 较 少 的 迭代 轮 数 ， 都 能 很 好 地 降低 算法 的 评估 时 间 ，1.4 节 会 详细 介绍 这 些 
节省 评估 时 间 的 实际 策略 。 近 期 一 些 关 于 多 任务 优化 中 和 多 源 优化 1 的 研究 ， 能 够 
通过 引入 成 本 较 低 的 辅助 任务 来 蔡 代 式 〈1.1) 。 这 些 辅助 任务 所 提供 的 廉价 信息 将 有 助 
于 HPO 的 优化 学 习 ， 而 不 再 需要 针对 目标 数据 集训 练 一 个 单独 的 机 器 学 习 模型 ， 当 然 
也 就 不 会 再 生成 一 个 作为 副产品 的 可 用 模型 。 
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1.2.1 ”优化 替代 方案 : 集成 与 边缘 化 


采用 本 章 剩余 部 分 所 介绍 的 技术 来 求解 式 〈1.1) 时， 一 般 需要 采用 多 组 超 参 向 量 4 
来 拟 合 机 器 学 习 算 法 4 。 为 了 取代 式 〈1.1) 中 的 argmin 算 子 ， 可 以 直接 构建 一 个 能 够 
最 小 化 给 定 验证 方案 损失 值 的 集成 函数 或 者 对 超 参 进行 积分 〈 当 待考 虑 的 模型 是 概率 模 
型 时 ) 。 本 书 将 Guyon 等 的 工作 501 及 其 中 的 参考 工作 作为 频 域 模型 筛选 方案 和 贝 叶 斯 
模型 筛选 方案 的 参照 算法 。 

在 实际 学 习 过 程 中 ， 每 次 只 选择 一 个 超 参 配置 进行 学 习 非 常 浪费 资源 和 时 间 ， 尤 其 
是 在 HPO 已 经 找到 很 多 较 好 配置 时 。 而 将 它们 集合 成 一 个 整体 ， 能 够 显著 提升 学 习性 
能 nm。 特别 是 在 AutoML 系统 的 配置 空间 (如 FMS 或 CASH) 异常 巨大 时 ， 这 种 集成 
的 方法 尤为 有 用 。 因 为 好 的 配置 可 能 是 非常 多 样 的 ， 而 多 样 化 的 配置 能 一 定 程度 上 增加 
集成 的 潜在 收益 上 上 9 30 下 。 为 进一步 提升 性 能 ， Automatic Frankensteining!59 首先 利用 
HPO 为 基于 HPO 生成 的 模型 的 输出 训练 一 个 又 加 模型 sa， 随后 采用 传统 的 集成 策略 将 
第 二 阶段 所 生成 的 模型 进行 组 合 。 

到 目前 为 止 ， 所 讨论 的 都 是 在 HPO 程序 之 后 的 应 用 集成 方法 。 虽 然 在 实际 任务 中 
这 些 方法 能 够 提升 模型 的 性 能 ， 但 是 基 模型 没有 针对 集成 进行 优化 。 事 实 上 ， 也 可 以 直 
接 针 对 基 模 型 进而 优化 ， 能 够 最 大 幅度 地 改进 现 有 集成 方法 四 。 

最 后 ， 在 应 对 贝 叶 斯 模型 时 ， 可 以 直接 对 机 器 学 习 算法 的 超 参 进行 积分 ， 如 采用 证 
据 最 大 化 9、 贝 叶 斯 模型 平均 9、 切 片 采样 11 或 经 验 贝 叶 斯 0091 等 方法 。 


1.2.2 多 目标 优化 


在 实际 应 用 中 ， 经 常会 出 现 一 种 情形 ， 需 要 对 多 个 目标 进行 权衡 ， 如 算法 的 性 能 和 

资源 消耗 时 (第 3 章 也 会 进行 介绍 ) ， 或 面临 多 个 损失 函数 51。 解决 方案 一 般 有 两 种 。 

e 方案 一 。 假 设 次 要 性 能 指标 的 极限 ( 如 内 存 消耗 的 最 大 值 ) 已 知 ， 多 目标 的 权 

衡 可 以 直接 转化 成 约束 优化 问题 。1.3.2 节 ( 贝 叶 斯 优化 ) 会 具体 讨论 如 何 进行 
约束 处 理 。 

as 方案 二 。 更 一 般 地 ， 可 以 采用 多 目标 优化 直接 寻找 可 行 解 的 帕 累 托 前 沿 ， 即 一 

系列 能 够 很 好 平衡 多 目标 的 配置 解 集 合 。 对 于 帕 累 托 前 沿 中 的 任何 一 个 配置 ， 

不 存在 另 一 个 配置 能 够 在 各 个 优化 目标 上 都 优 于 该 配置 的 情况 。 获 得 可 行 解 的 
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帕 累 托 前 沿 之 后 ， 可 以 直接 从 帕 累 托 前 沿 中 选取 一 个 解 作 为 多 目标 优化 的 配置 。 
对 此 主题 感 兴趣 的 读者 ， 可 以 深入 阅读 参考 文献 [53，57，65，134]。 


1.3” 黑 盒 超 参 优 化 


一 般 而 言 , 任何 一 个 黑 盒 优 化 方法 都 可 以 应 用 到 HPO 问题 上 。 考虑 到 问题 的 非 凸 性 ， 
更 倾向 于 选择 全 局 优化 算法 。 不 过 ， 优 化 过 程 中 的 部 分 局 部 极 值 点 有 助 于 实现 用 更 少 的 
函数 评估 取得 算法 优化 。 接 下 来 ， 本 节 首 先 介绍 免 模型 的 黑 盒 HPO 方法 ， 随 后 详细 介 
绍 黑 盒 贝 叶 斯 优化 方法 。 


1.3.1 免 模 型 的 黑 盒 优 化 方法 


网 格 搜索 是 最 为 基础 的 HPO 方法 ， 也 称 为 全 因子 设计 WI 。 具 体 而 言 ， 首 先 用 户 为 
每 个 超 参 设 定 取 值 的 有 限 集合 ， 随 后 网 格 搜索 评估 这 些 集合 的 笛 卡 儿 积 。 毫 无 疑问 ， 网 
格 搜索 会 面临 “ 维 数 灾 难 ” 困 境 ， 因 为 需要 评估 的 函数 次 数 会 随 着 配置 空间 维度 的 增加 
而 呈 指 数 级 增长 。 网 格 搜索 还 面临 着 另外 一 个 问题 ， 即 随 着 超 参 离散 化 程度 的 提升 ， 所 
需 的 函数 评估 次 数 会 极 大 增加 。 

随机 搜索 na@ 可 以 作为 网 格 搜索 的 一 个 简单 蔡 代 。 顾 名 思 义 ， 随 机 搜索 以 随机 的 方 
式 从 配置 中 进行 采样 直到 某 个 特定 的 搜索 预算 耗 尽 为 止 。 当 一 些 超 参 的 重要 性 比 另外 一 
些 超 参 高 时 (很 多 参数 空间 都 存在 这 种 特性 US 97) ， 随 机 搜索 的 性 能 会 优 于 网 格 搜索 。 
举例 而 言 ， 给 定 函数 评估 次 数 为 了 ， 超 参 个 数 为 N， 采 用 网 格 搜 索 时 ， 分 配 到 每 个 超 参 
能 够 尝试 到 的 不 同 取 值 个 数 只 有 YB 。 如 果 采 用 随机 搜索 ， 每 个 超 参 能 够 尝试 到 的 不 同 
取 值 个 数 为 也, 远 多 于 网 格 搜索 。 为 了 让 读者 更 好 理解 网 络 搜索 和 随机 搜索 的 差异 , 图 1.1 
给 出 了 一 个 直观 例子 。 

相 较 于 网 格 搜索 ， 随 机 搜索 更 进一步 的 优势 还 包括 易 实现 的 并 行 化 和 灵活 的 资源 配 
置 。 具 体 而 言 ， 由 于 生产 者 〈workers) 在 运行 过 程 中 无 须 与 其 他 生产 者 进行 信息 沟通 且 
表现 差 的 生产 者 也 不 会 对 设计 留 下 隐患 ， 使 得 随机 搜索 可 以 进行 并 行 化 运算 ; 另外， 在 
随机 搜索 中 ， 用 户 可 以 为 一 个 随机 搜索 设计 添加 任意 数量 的 随机 点 ， 仍 会 产生 一 个 随机 


(D 在 某 些 学 科 中 ， 这 也 被 称 为 纯粹 随机 搜索 UU, 
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搜索 设计 ， 使 得 随机 搜索 的 资源 配置 较为 灵活 ， 但 这 种 方法 难以 适用 到 网 格 搜索 中 。 
网 格 搜索 随机 搜索 


非 重 要 参数 
非 重 要 参数 


重要 参数 重要 参数 
图 1.1 网 格 搜索 和 随机 搜索 的 对 比 示例 


图 : 优化 的 目标 是 最 小 化 含有 一 个 重要 参数 和 一 个 非 重要 参数 的 函数 。 该 图 来 源 于 参考 文献 [13] 的 图 1。 


随机 搜索 是 一 个 非常 有 用 的 基准 模型 ， 因 为 随机 搜索 没有 对 正在 优化 的 机 器 学 习 算 
法 做 任何 假设 ， 且 在 给 定 足够 资源 的 前 提 下 ， 随 机 搜索 的 结果 预期 能 够 足够 接近 最 优 值 。 
当 将 随机 搜索 和 其 他 更 为 复杂 的 优化 策略 结合 在 一 起 时 ， 一 方面 能 够 保证 获得 一 个 最 小 
的 收敛 率 ， 另 一 方面 还 增加 了 能 够 改进 基于 模型 搜索 的 探索 & 下。 除 此 之 外 ， 随 机 搜索 
也 是 一 个 非常 好 的 可 用 于 搜索 过 程 初始 化 的 方法 , 因为 随机 搜索 探索 的 是 整个 配置 空间 ， 
且 经 常 能 找到 性 能 合理 的 超 参 配置 。 然 而 ， 随 机 搜索 也 存在 着 一 些 不 足 ， 尤 其 是 相 较 于 
指导 性 搜索 方法 ， 随 机 搜索 找到 一 组 性 能 满意 的 超 参 配置 通常 需要 花费 更 多 的 时 间 。 举 
例 而 言 ， 当 从 一 个 具有 N 个 布尔 型 超 参 〈 好 与 坏 两 种 取 值 ， 且 超 参 彼此 之 间 没 有 影响 ) 
的 配置 空间 中 进行 不 放 回 抽样 时 ， 为 了 找到 最 优 值 ， 随 机 搜索 的 函数 评估 的 期 望 次 数 为 
2 次 。 然 而， 如 果 采 用 如 下 方法 ， 指 导 性 搜索 找到 最 优 值 总 共 只 需要 N+1 次 函数 评估 
即 可 : 首先 ， 任 选 一 个 配置 开始 运行 。 其 次 ， 基 于 超 参 进行 循环 ， 每 次 循环 只 改变 一 个 
超 参 ， 如 果 性 能 得 到 提升 ， 则 保留 配置 结果 ; 如 果 性 能 没有 得 到 提升 ， 则 撤回 本 次 改变 ， 
最 终 总 共 只 需要 N+1 次 函数 评估 便 可 找到 最 优 配置 。 一 般 而 言 ， 在 接 下 来 的 章节 中 所 
讨论 的 指导 性 搜索 方法 的 效果 都 会 优 于 随机 搜索 方法 02 1e 39 00, 1881, 

基于 种 群 的 方法 〈 如 遗传 算法 、 进 化 算法 和 粒子 群 优化 算法 等 ) 可 以 维护 一 个 种 群 
〈 即 一 系列 配置 的 集合 ) ， 并 通过 应 用 变异 〈 即 局 部 扰动 ) 和 交叉 《个 体 不 同 部 分 进行 
BA) 等 手段 获得 质量 更 高 的 新 一 代 种 群 (也 就 是 更 好 的 超 参 配置 ) 。 这 些 方法 概念 上 
较为 简单 ,并 且 能 够 处 理 不 同类 型 的 数据 。 除 此 之 外 ,基于 种 群 的 方法 可 以 并 行 叫 运 算 ， 
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因为 一 个 具有 入 个 成 员 的 种 群 可 以 并 行 在 入 台 机 器 上 分 别 进行 评估 。 

自 适 应 协 方差 矩阵 进化 策略 〈《CMA-ESIs) 是 常用 的 基于 种 群 的 方法 之 一 : 该 进化 
策略 从 一 个 多 元 高 斯 分 布 中 进行 配置 采样 。 其 中 ， 多 元 高 斯 分 布 的 均值 和 方差 会 基于 每 
一 代 种 群 个 体 的 成 功 程度 进行 更 新 。 另 外 ，CMA-ES 也 是 极 具 竞 争 力 的 黑 盒 优化 算法 之 
一 ， 定 期 主导 黑 盒 优 化 基准 测试 (BBOB) PEARSE 7, 

想 要 了 解 更 多 基于 种 群 的 优化 方法 的 细节 ， 可 以 参考 文献 [28，138]。 另 外 ，1.5 节 
会 讨论 超 参 优化 上 的 一 些 应 用 ， 第 3 章 会 介绍 神经 网 络 架构 搜索 上 的 相关 应 用 。 第 8 章 
会 详细 介绍 针对 AutoML 管道 优化 的 遗传 规划 的 相关 内 容 。 


1.3.2 贝 叶 斯 优化 


贝 叶 斯 优化 是 一 个 可 为 黑 盒 函 数 进行 全 局 优化 的 最 为 先进 的 优化 框架 ， 尤 其 是 近期 在 
HPO 领域 更 是 获得 了 大 量 的 关注 。 因 为 在 众多 机 器 学 习 任务 中 《如 图 像 分 类 no un. ig 
音 识别 四、 神经 语言 建 模 09 等 ) ， 基 于 贝 叶 斯 优化 所 调整 的 深度 神经 网 络 取得 了 最 好 
的 算法 结果 。 除 此 之 外 ， 贝 叶 斯 优化 针对 不 同 的 问题 设置 具有 广泛 的 适用 性 。 想 要 深入 
了 解 贝 叶 斯 优化 的 读者 ， 可 以 仔细 阅读 文献 [135] 和 文献 [18] 。 

在 本 小 节 ， 首 先 对 贝 叶 斯 优化 进行 简要 介绍 ， 随 后 给 出 贝 叶 斯 优化 中 可 用 的 代理 模 
型 及 详细 描述 条 件 配 置 空间 和 约束 配置 空间 的 扩展 , 最 后 讨论 超 参 优化 的 若干 重要 应 用 。 

在 贝 叶 斯 优化 的 一 些 最 近 进 展 中 ， 已 不 再 将 HPO 当成 黑 盒 优 化 问题 ， 如 多 保 真 度 HPO 
(1.4 节 ) 、 基 于 元 学 习 的 贝 叶 斯 优化 (第 2 章 ) 和 结合 管道 结构 的 贝 叶 斯 优化 59 161, pg 
此 之 外 ， 贝 叶 斯 优化 的 很 多 最 新 进展 并 不 直接 针对 HPO 进行 优化 ， 但 可 以 更 为 容易 地 
应 用 到 HPO 上 ， 如 新 的 采集 函数 、 新 的 核 函 数 、 新 的 模型 及 新 的 并 行 化 机 制 等 。 


1. 贝 叶 斯 优化 简介 


贝 叶 斯 优化 是 一 种 含有 两 个 关键 要 素 的 迭代 算法 : 概率 代理 模型 和 采集 函数 。 其 中 ， 
采集 函数 主要 用 于 决定 下 一 个 待 评 估 的 数据 点 。 在 每 轮 和 迭代 中 ， 代 理 模型 会 对 当前 所 生 
成 的 目标 函数 的 所 有 观测 值 进行 拟 合 。 随 后 ， 采 集 函 数 会 基于 概率 模型 的 预测 分 布 来 决 
定 不 同 候选 采样 点 的 效用 ， 同 时 对 探索 和 利用 进行 平衡 。 相 较 于 直接 评估 运算 量 较 大 的 
黑 盒 函数 ， 采 集 函 数 能 够 以 更 加 高 效 的 方式 进行 运算 ， 因 此 优化 得 更 为 彻底 。 

尽管 现 有 采集 函数 较 多 ， 但 普遍 使 用 的 采集 函数 是 期 望 增 量 (Expected Improvement, 
ED "3; 
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B(1(A))=B[ max( fna — y.0)). (1:2) 
主要 原因 在 于 ， 如 果 模型 的 预测 值 y 在 配置 4 上 满足 正 态 分 布 ， 那 么 便 可 以 用 封闭 
形式 计算 EI: 


E(1(2))- (Som nay HD a e zu) (1.3) 


其 中 ， pO NRRESHE: 0.) 为 标准 正 态 函 数 ， 太 ,为 当前 最 好 的 观测 值 。 
为 了 让 读者 对 贝 叶 斯 优化 有 一 个 直观 认识 ， 图 1.2 给 出 了 贝 叶 斯 优化 的 一 个 简单 
示例 。 


后 验 均值 

后 验 不 确定 程度 

| 名 | 
图 1.2 单 维 函 数 上 的 贝 叶 斯 优化 示例 


EB: 目标 是 通过 最 大 化 采集 函数 〈 底 部 的 灰色 区 域 ) 来 逼近 目标 函数 〈 虚 线 部 分 ) 的 高 斯 代理 过 程 〈 预 
测 值 为 实 线 部 分 ， 实 线 周围 的 灰色 区 域 表 示 不 确定 性 ) 。 具 体 而 言 ， 上 图 ， 观 测 值 附件 的 采样 值 较 小 ， 
最 大 的 采样 值 出 现在 预测 函数 值 较 小 且 预 测 不 确定 性 较 大 的 点 ; 中 图 ， 虽 然 新 观测 值 的 左 侧 仍然 存在 
较 大 的 方差 ， 但 是 右 侧 的 预测 值 均 值 非常 低 ， 下 一 次 的 采样 可 以 在 新 观测 值 的 右 侧 进行 ， 下 图 ， 虽 然 
在 实际 最 大 值 处 几乎 不 存在 任何 不 确定 性 ， 但 考虑 到 目前 为 止 ， 该 点 预计 能 够 获得 最 大 的 预期 提升 ， 
下 一 次 评估 会 在 此 处 进行 。 
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2. 代理 模型 

一 般 而 言 ， 贝 叶 斯 优化 会 采用 高 斯 过 程 (2 对 目标 函数 进行 建 模 ， 主 要 原因 在 于 高 
斯 过 程 能 够 很 好 地 矫正 估计 值 的 不 确定 性 且 预 测 的 分 布 具有 闭 式 可 计算 性 。 事 实 上 ， 高 
斯 过 程 所 生成 的 多 维 高 斯 分 布 ， 可 以 对 任何 目标 函数 进行 建 模 ， 具 有 极 大 的 灵活 性 。 高 
斯 过 程 9(m(4),k(4,2')) 主要 由 均值 函数 m(2) 和 协 方差 矩阵 函数 大 (2.7) 构成 。 需 要 注 
意 的 是 ， 在 贝 叶 斯 优化 中 ， 均 值 函 数 一 般 直接 设置 为 常数 。 无 噪声 情形 下 ， 均 值 预测 值 
Lu (|) 和 方差 预测 值 o (-) 的 计算 方法 如 下 所 示 : 

(2) - Ky, 
o? (2) - k(4,2) - K K^ k. (1.4) 

KH, KR 2 和 所 有 当前 观测 值 之 间 的 协 方差 向 量 ， 下 表示 所 有 已 评估 配置 的 协 方差 
和 矩阵: y 表 示 观 测 函 数值 。 值 得 一 提 的 是 ， 高 斯 过 程 的 质量 完全 取决 于 协 方差 核 函 数 。 
常用 的 协 方差 核 函 数 是 Mátern 5/2 核 函数 ， 该 方法 的 超 参 主要 由 马尔 科 夫 链 蒙 特 卡 洛 
(Markov Chain Monte Carlo, MCMC) 积分 求 得 na。 

具有 标准 核 的 高 斯 过 程 存在 的 一 个 不 足 是 计算 量 与 数据 点 呈 立 方 关系 ， 这 在 一 定 程 
度 上 限制 了 标准 高 斯 过 程 的 应 用 范围 ， 除 非 是 采用 了 并 行 运算 或 者 是 降低 精度 以 减少 函 
数 评估 的 运算 量 。 不 过 在 实际 任务 中 ， 使 用 可 扩展 的 高 斯 过 程 近似 可 以 避免 该 不 足 ， 如 
稀 朴 高 斯 过 程 。 这 些 方法 通过 使 用 原始 数据 集 的 子 集 作 为 诱导 点 来 近似 全 高 斯 过 程 ， 进 
而 获得 核 矩 阵 下 。 同 时 ， 这 些 方法 支持 高 斯 过 程 的 贝 叶 斯 优化 扩展 到 更 多 的 数据 点 ， 
进而 能 够 优化 随机 SAT 求解 器 的 参数 吧 。 不 过 对 这 类 近似 方法 也 存在 着 一 些 争 议 ， 一 
方面 是 不 确定 度 估计 的 校准 过 程 ， 另 一 方面 是 对 标准 HPO 的 适用 性 并 没有 经 过 验证 和 
测试 [104, 154]. 

具有 标准 核 的 高 斯 过 程 的 另外 一 个 不 足 是 应 对 高 维 时 的 可 扩展 性 差 。 基 于 此 ， 目 
前 有 非常 多 的 扩展 版 本 致力 于 处 理 具 有 大 量 超 参 配置 空间 的 固有 属性 所 带 来 的 求解 问 
题 ， 如 随机 表征 的 使 用 (外 、 在 分 块 的 配置 空间 上 使 用 高 斯 过 程 4、 圆柱 核 A ÉL 
应 核 [40, 75] 等 。 

由 于 很 多 机 器 学 习 模 型 都 比 高 斯 过 程 更 具 灵 活性 和 可 扩展 性 ， 因 而 有 大 量 的 研究 工 
作 致 力 于 将 这 些 机 器 学 习 方 法 适 配 到 贝 叶 斯 优化 过 程 中 。 首 先 ， 深 度 神经 网 络 是 一 类 非 
常 灵活 且 具 有 可 扩展 性 的 方法 。 最 为 简单 的 一 种 适 配 方法 是 将 神经 网 络 作为 预 处 理 输入 
的 特征 提取 器 ， 将 最 后 隐 层 的 输出 作为 贝 叶 斯 线性 回归 的 基 函 数 1 和。 更 进一步 ， 可 以 
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采用 随机 梯度 汉密尔顿 蒙特 卡 洛 (Hamiltonian Monte Carlo, HMC) 方法 0 来 直接 训 
练 一 个 贝 叶 斯 神经 网 络 ， 该 适 配 方法 能 够 完全 采用 贝 叶 斯 方法 来 处 理 网 络 的 权重 。 在 贝 
叶 斯 优化 过 程 中 ， 大 约 在 250 次 函数 评估 之 后 ， 神 经 网 络 速度 会 优 于 高 斯 过 程 。 需 要 注 
意 的 是 ， 神 经 网 络 支 持 大 规模 的 并 行 运算 。 除 此 之 外 ， 深 度 学 习 所 具有 的 灵活 性 能 够 支 
撑 贝 叶 斯 优化 运行 在 更 为 复杂 的 任务 上 。 举 例 而 言 ， 在 某 个 复杂 任务 上 ， 可 以 先 采 用 变 
分 自 编码 器 将 复杂 的 输入 《如 第 9 章 自动 统计 中 的 结构 化 配置 ) 变 成 实数 向 量 ， 随 后 
便 可 以 直接 使 用 常规 的 高 斯 过 程 来 处 理 生成 的 实数 向 量 时 。 对 于 多 源 贝 叶 斯 优化 ， 基 
于 因子 分 解 机 029 的 神经 网 络 架构 可 以 包含 之 前 任务 的 相关 信息 W314。 此 外 ， 该 神经 
网 络 架构 也 能 够 被 用 来 解决 CASH 问题 9), 

实现 贝 叶 斯 优化 的 另 一 种 可 蔡 代 方 案 是 随机 森林 四。 在 小 规模 数值 型 的 配置 空 
ja] E (入 ， 高 斯 过 程 的 效果 优 于 随机 森林 方法 。 而 在 大 规模 类 别 型 或 条 件 型 的 配置 空间 
上 ， 随 机 森林 的 效果 会 优 于 高 斯 过 程 O 中 。 除 此 之 外 ， 随 机 森林 的 计算 复杂 度 也 小 
于 高 斯 过 程 。 具 体 而 言 ， 拟 合 和 预测 n 个 数据 点 的 方差 时 ， 高 斯 过 程 的 复杂 度 分 别 为 
O(m) 和 O( 严 ) ， 而 随机 森林 的 复杂 度 分 别 为 O(nlogn) 和 O(logn) 。 正 是 随机 森林 所 
具有 的 这 些 优势 ， 使 得 实现 贝 叶 斯 优化 的 SMAC 框架 〈 基 于 随机 森林 ) 能够 支撑 主流 的 
AutoML 框架 Auto-WEKAU4I( 具 体内 容 见 第 4 章 ) 和 Auto-sklearn 8B4( 具 体内 容 见 第 6 章 )。 

与 直接 建 模 基于 配置 4 所 得 到 的 观测 值 y 的 概率 p(y|4) 不 同 的 是 ，TPE (Tree Parzen 
Estimator) 算法 "241 分 别 建 模 密度 函数 p(2r<x) 和 P(2by za). 。 当 给 定 百分比 abt GH 
WHA 15%) ， 观 测 值 会 被 分 成 两 部 分 : 好 的 观测 值 和 差 的 观测 值 。 随 后 ， 采 用 一 维 Parzen 


窗 来 建 模 这 两 个 分 布 。 而 比例 roro 直接 相关 于 期 望 提升 采集 函数 ， 可 用 来 生成 新 的 


超 参 配 置 。 针 对 条 件 超 参 时 ，TPE 使 用 树 形 Paren 估计 量 ， 在 一 些 结构 化 的 HPO 任务 上 
Hz, 14, 29, 33, 143, 149, 160] 都 取得 了 良好 的 性 能 。 简 而 言 之 ，TPE 方法 具有 概念 简单 、 可 并 行 
等 优势 叫 。 除 此 之 外 ，TPE 也 是 AutoML 框架 Hyperopt-sklearn 5?! 〈 具 体内 容 见 第 5 章 ) 
背后 的 核心 算法 。 

最 后 ， 需 要 特别 说 明 的 是 ， 一 些 不 遵循 贝 叶 斯 优化 范式 的 代理 模型 也 存在 。 例 如 ， 
在 参考 文献 [67] F, Hord 等 作者 采用 确定 性 RBF 代理 模型 来 调整 深度 神经 网 络 的 超 参 ; 
又 如 ， 在 参考 文献 [52] 中 ，Harmonica 等 作者 使 用 压缩 传 感 技 术 来 学 习 深 度 神 经 网 络 的 
超 参 。 
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3. 配置 空间 


最 初 ， 贝 叶 斯 优化 主要 用 来 求解 框 式 约 束 的 实数 函数 。 然 而 ， 在 实际 工作 中 ， 对 于 
很 多 机 器 学 习 中 的 超 参 (如 神经 网 络 的 学 习 率 或 支持 向 量 机 中 的 正则 化 项 ) ， 可 以 直接 
优化 可 衡量 变化 的 指数 项 的 指数 。 例 如 ， 从 0.001 到 0.01 的 变化 与 从 0.1 到 1 的 变化 影 
响 较 为 接近 。 而 输入 旋 曲 42 技术 通过 将 每 个 维度 的 输入 用 一 个 含有 两 个 参数 的 贝塔 分 
布 来 替代 并 进行 优化 ， 最 终 能 够 在 优化 过 程 中 自动 学 习 出 超 参 的 相应 变换 。 

需要 说 明 的 是 ， 框 式 约束 存在 一 个 明显 的 限制 ， 即 需要 用 户 提 前 定义 这 些 约束 。 为 
了 避免 该 限制 ， 可 在 优化 过 程 中 动态 扩展 配置 空间 9. 831。 除 此 之 外 ， 也 可 以 采用 分 布 
估计 式 算法 TPE03， 该 算法 能 够 应 对 具有 先 验 〈 如 高 斯 先 验 ) 的 无 限 空间 。 

对 于 整 型 和 类 别 型 超 参 而 言 ， 在 实际 任务 中 需要 对 其 进行 特殊 处 理 。 不 过 工作 量 较 
小 ， 只 需 对 核 函数 和 优化 过 程 进行 简单 适 配 即 可 直接 应 用 到 常规 的 贝 叶 斯 优化 模型 中 ， 
具体 内 容 可 参阅 文献 [58] 的 12.1.2 节 或 文献 [42]。 另 外 ， 像 分 解 机 和 随机 森林 等 模型 都 
可 以 用 来 处 理 整 型 和 类 别 型 超 参 。 

相对 而 言 ， 条 件 型 超 参 仍然 是 一 个 非常 活跃 的 研究 领域 ， 第 5 章 和 第 6 章 都 会 具 
体 介绍 到 近期 的 自动 机 器 学 习 系统 中 条 件 超 参 空间 的 处 理 方法 。 直 观 而 言 ， 树 形 模型 
能 够 很 好 地 处 理 条 件 型 超 参 ， 如 随机 森林 9) 和 TPE 等 方法 。 然 而 ， 由 于 高 斯 过 程 
比 其 他 模型 具有 更 多 的 优势 ， 所 以 有 大 量 的 方法 致力 于 为 结构 化 的 配置 空间 设计 合适 
的 核 函 数 [4, 12, 63, 70, 92, 96, 146) 。 


4. 受 约束 的 贝 叶 斯 优化 


实际 的 应 用 场景 中 存在 着 各 种 各 样 的 约束 ， 如 内 存 消耗 Uo 和、 训练 时 间 Un p 
测 时 间 Mr 匀 、 压 缩 模型 的 精度 UU, Era 4 外， 以 及 最 为 简单 的 训练 成 功 与 否 91. 

事实 上 ， 约 束 条 件 可 以 简化 成 一 个 二 进 制 〈 即 成 功 或 失败 ) 的 观测 变量 中。 而 在 自 
动机 器 学 习 中 ， 最 为 典型 的 约束 条 件 是 内 存 约束 和 时 间 约束 。 因 为 在 具体 学 习 过 程 中 ， 
需要 保证 算法 可 以 在 一 个 共享 的 计算 系统 上 进行 训练 ， 同 时 需要 保证 单个 慢 速 的 算法 配 
置 不 会 耗 用 HPO 的 所 有 可 用 时 间 M4 101 CHR 4 章 和 第 6 章 也 会 介绍 这 部 分 内 容 ) 。 

约束 也 有 可 能 是 未 知 的 。 换 言 之 ， 可 以 观测 和 建 模 一 个 辅助 约束 函数 ， 但 是 只 有 在 
目标 函数 评估 完 之 后 才能 知道 约束 是 否 被 满足 四。 举例 而 言 ， 支 持 向 量 机 的 预测 时 间 
只 有 在 模型 训练 时 才能 获得 ， 因 为 支持 向 量 机 的 预测 时 间 依 赖 于 训练 过 程 中 支持 向 量 的 
个 数 。 
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衡量 约束 是 否 被 满足 的 最 为 简单 的 方法 是 定义 一 个 惩罚 值 〈 至 少 同 在 最 坏 情 况 下 的 
观测 损失 值 一 样 差 ) ， 并 用 该 惩罚 值 作为 失败 运行 的 观测 变量 Be 99 qu A 
的 方法 会 直接 对 违反 一 个 或 多 个 约束 的 概率 进行 建 模 ， 同 时 会 积极 搜索 那些 更 能 满足 给 
定 约束 条 件 的 超 参 配置 由 人 6 s, 

通过 使 用 信息 理论 采集 函数 ， 贝 叶 斯 优化 框架 可 以 解 耦 目 标 函 数 评 估 和 约束 评估 ， 
进而 能 够 动态 地 选择 下 一 次 的 评估 对 象 ( 即 约束 或 目标 函数 ) %' 号 。 尤 其 是 在 目标 函数 
评估 和 约束 评估 各 自 所 需 的 计算 时 间 差 异 较 大 时 ， 对 两 者 进行 解 耦 价值 更 为 显著 ， 如 深 
度 神经 网 络 的 性 能 评估 和 内 存 占用 评估 时 所 需 的 时 间 差异 就 较为 明显 。 


1.4 多 保 真 度 优化 


不 断 增 长 的 数据 规模 和 模型 复杂 度 使 得 超 参 优化 变 得 更 加 困难 ， 因 为 它们 使 得 HPO 
的 黑 盒 性 能 评估 代价 变 得 更 大 。 如 今 ， 在 大 规模 的 数据 集 上 哪怕 只 是 进行 一 组 超 参 配 置 
的 训练 ， 很 容易 就 超过 几 小 时 甚至 几 天 的 时 间 中 。 

加 快 人 工 调 优 速度 的 一 种 常见 技术 是 在 小 规模 的 数据 子 集 上 通过 各 种 简化 手段 来 探 
索 模型 或 超 参 配置 , 如 降低 训练 迭代 次 数 、 减 少 特征 数量 、 只 使 用 一 个 或 几 个 交叉 验证 组 、 
对 图 像 进行 下 采样 等 。 而 多 保 真 度 方法 通过 对 真实 损失 函数 的 低 保 真 度 近似 进行 最 小 化 ， 
能 够 将 这 些 启 发 式 规则 转化 为 正式 算法 。 虽 然 这 些 近似 方法 对 优化 性 能 和 优化 所 需 运行 
时 间 进 行 了 平衡 ， 但 事实 上 ， 最 终 所 获得 的 运行 加 速 性 能 往往 会 超过 近似 误差 。 

本 小 节 内 容 概要 如 下 : 首先 ， 本 节 对 建 模 算法 训练 过 程 中 的 学 习 曲 线 并 基于 对 新 增 
资源 是 否 有 价值 的 预测 而 决定 是 否 停止 训练 的 早 停 法 进行 介绍 ; 其 次 ， 对 能 够 从 给 定 算 
法 或 超 参 配 置 的 有 限 集合 中 选择 一 种 算法 或 超 参 配 置 的 筛选 方法 进行 讨论 ， 最 后 ， 本 节 
对 若干 多 保 真 度 方法 进行 介绍 ， 这 些 方法 能 够 主动 地 确定 那些 为 找到 最 佳 超 参 配置 提供 
最 多 信息 的 保 真 度 。 另 外 ， 第 2 章 和 第 3 章 也 对 多 保 真 度 方法 进行 了 介绍 。 其 中 ， 第 2 
章 讨论 了 如 何 跨 数据 集 使 用 多 保 真 度 方法 ， 第 3 章 描述 了 能 够 进行 神经 网 络 架构 搜索 的 
低 保 真 度 近 似 方法 。 
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1.4.1 基于 学 习 曲 线 预 测 的 早 停 法 


E HPO 的 多 保 真 度 方法 中 ， 早 停 法 是 比较 典型 的 一 种 方法 。 该 方法 首先 会 对 HPO 
优化 过 程 中 的 学 习 曲 线 进行 评估 和 建 模 中 :53， 随 后 对 一 个 给 定 的 超 参 配置 是 继续 投入 
训练 资源 还 是 停止 训练 过 程 进 行 决 策 。 实 际 上 ， 学 习 曲 线 有 多 种 ， 如 逐步 扩大 训练 数据 
集 时 ， 同 一 个 超 参 配 置 在 训练 过 程 中 的 性 能 变化 ;又 如 ， 针 对 一 个 迭代 算法 而 言 ， 学 习 
曲线 可 以 是 每 轮 和 欠 代 中 的 算法 性 能 表现 〈 如 果 性 能 计算 代价 较为 巨大 ， 可 以 每 隔 ; 轮 计 
算 一 次 性 能 ) 。 

学 习 曲 线 外 推 法 主要 用 来 进行 预测 性 终止 外 ， 该 方法 会 学 习 一 个 能 够 为 特定 超 参 配 
置 的 部 分 观测 曲线 进行 推断 的 学 习 曲线 模型 ， 并 对 该 配置 在 接 下 来 的 训练 过 程 中 所 能 取 
得 的 性 能 进行 预测 ， 如 果 预 测 的 性 能 无 法 达到 目前 已 获得 的 最 佳 优化 性 能 ， 便 停止 训练 
过 程 。 具 体 而 言 ， 每 条 学 习 曲 线 都 会 被 建 模 成 一 个 来 自 11 个 不 同 科学 领域 的 参数 函数 
的 加 权 组 合 。 通 过 MCMC 方法 对 这 些 函 数 的 参数 和 权重 进行 采样 ， 以 最 小 化 拟 合 部 分 
观测 学 习 曲线 的 损失 值 。 随 后 ， 获 得 一 个 预测 分 布 ， 基 于 该 分 布 可 知 随后 的 训练 结果 能 
否 超越 当前 最 佳 模型 的 概率 ， 进 而 基于 此 概率 来 决定 是 否 停止 训练 过 程 。 在 神经 网 络 优 
化 中 ， 如 果 将 预测 终止 准则 与 贝 叶 斯 优化 进行 结合 ， 相 较 于 现 有 的 黑 盒 贝 叶 斯 优化 ， 预 
测 终止 准则 会 获得 更 低 的 错误 率 。 平 均 而 言 ， 该 方法 能 够 将 优化 速度 提高 两 倍 ， 并 且 能 
够 为 CIFAR-10 数据 集 〈 没 有 进行 数据 增强 操作 ) 找到 当前 最 为 领先 的 神经 网 络 模型 四 。 

然而 ， 上 述 方 法 无 法 对 不 同 超 参 配置 之 间 的 信息 进行 共享 ， 但 这 并 非 不 能 实现 。 事 
实 上 ， 通 过 将 基 函 数 作为 贝 叶 斯 神经 网 络 的 输出 层 四 ， 可 实现 不 同 超 参 配置 之 间 的 信息 
共享 。 进 而 ， 可 以 对 任意 超 参 配置 的 基 函 数 的 参数 和 权重 进行 预测 ， 从 而 能 够 获得 完整 
的 学 习 曲 线 。 除 此 之 外 ， 也 可 以 直接 将 之 前 的 学 习 曲 线 作为 基 函 数 推断 器 四。 虽然 实验 
结果 还 没有 清楚 地 表明 本 节 中 所 提出 的 方法 是 否 优 于 预先 设 定 的 参数 函数 ， 但 是 无 须 手 
动 设计 参数 函数 这 本 身 就 是 一 个 明显 的 优势 。 

冻 一 融 贝 叶 斯 优化 "4 是 将 学 习 曲 线 完全 集成 到 贝 叶 斯 优化 的 建 模 和 选择 过 程 。 与 
直接 终止 某 个 超 参 配置 的 训练 过 程 相反 ， 冻 一 融 贝 叶 斯 优化 首先 会 用 较 少 的 迭代 次 数 来 
训练 模型 ， 随 后 对 该 模型 进行 挂 起 〈 即 进行 “冷冻 ”， 和 暂停 训练 ) 。 接 下 来 ， 贝 叶 斯 优 
化 会 从 众多 暂停 训练 的 机 器 学 习 模 型 中 选择 一 个 进行 “融化 ”， 即 继续 进行 训练 。 另 外 ， 
该 方法 也 会 依据 实际 情况 来 决定 是 否 启动 一 个 新 的 超 参 配置 进行 训练 。 具 体 而 言 ， 冻 一 
融 贝 叶 斯 优化 通过 采用 常规 高 斯 过 程 对 收敛 算法 的 性 能 进行 建 模 ， 并 且 引 入 一 个 对 应 于 
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指数 衰减 函数 的 特殊 协 方差 函数 ， 采 用 单个 学 习 曲 线 高 斯 过 程 对 学 习 曲 线 进行 建 模 。 
1.4.2 基于 Bandit 的 选择 方法 


本 节 主 要 对 能 够 从 给 定 的 算法 有 限 集合 中 挑选 出 最 好 算法 的 方法 进行 介绍 ， 这 些 方 
法 主要 是 基于 算法 性 能 的 低 保 真 度 近似 来 进行 挑选 的 ， 最 后 ， 本 节 对 自 适 应 配置 策略 的 
潜在 组 合 进行 了 讨论 。 本 节 会 重点 关注 基于 Bandit 策略 的 变 体 ， 连续 减 半 (successive 
halving) 和 超 带 Chyperband) ， 因 为 这 些 变 体 的 性 能 非常 优越 ， 尤 其 是 在 深度 学 习 算 法 
的 优化 上 。 严 格 意义 上 ， 本 小 节 将 要 介绍 的 一 些 模型 也 会 对 学 习 曲 线 进 行 建 模 ， 但 是 这 
些 模 型 没有 提供 能 够 选择 新 配置 的 方法 。 

首先 ， 简 要 介绍 多 保 真 度 选择 算法 的 发 展 历 史 。2000 年 ， 佩 特 拉 克 在 文献 [120] 中 
指出 在 小 的 数据 子 集 上 对 各 种 算法 进行 测试 是 一 种 方便 且 高 效 的 算法 选择 机 制 。 随 后 的 
方法 主要 采用 迭代 算法 淘汰 机 制 对 超 参 配置 进行 剔除 ， 如 超 参 配置 在 数据 子 集 上 表现 不 
够 良好 11， 或 者 其 性 能 明显 低 于 性 能 最 好 的 一 组 超 参 配 置 Bl， 又 或 者 表现 差 于 用 户 给 
定 的 最 好 的 一 组 超 参 配置 wa， 或 者 连 算法 的 性 能 上 界 都 劣 于 已 知 的 最 好 算法 US, Ec 
类 似 ， 当 某 超 参 配 置 在 一 个 或 若干 个 交叉 验证 集 上 表现 不 够 良好 时 ， 也 可 以 对 该 超 参 配 
置 进行 剔除 al。 最 后 ， 贾 米 森 和 塔 尔 沃 卡 UU 提出 使 用 最 早 由 卡 宁 等 人 re 引入 的 连续 
对 半 算 法 对 超 参 配置 进行 优化 。 

连续 对 半 算 法 是 一 种 极其 简单 却 高 效 的 多 保 真 度 选 择 方法 ， 也 是 目前 被 普遍 采用 的 
多 保 真 度 选择 方法 。 具 体 而 言 ， 该 方法 首先 将 给 定 的 预算 均匀 地 分 配 到 各 个 算法 上 ; 随 
后 ， 基 于 各 个 算法 的 评估 结果 ， 从 所 有 算法 中 淘汰 掉 一 半 表 现 差 的 算法 ， 接 下 来 ， 将 总 
预算 平均 分 配 到 保留 下 来 的 一 半 算 法 上 @， 并 继续 淘汰 一 半 表 现 差 的 算法 ， 重 复 此 过 程 ， 
直到 最 后 只 剩 下 一 个 算法 为 止 。 为 了 更 为 直观 地 了 解 连续 对 半 方 法 的 整体 流程 ， 图 1.3 
给 出 了 具体 示例 。 


中 ”准确 一 点 而 言 ， 每 轮 淘汰 的 算法 比例 为 了， 保留 下 来 的 每 个 算法 的 预算 为 上 一 轮 的 了 倍 。 其 中 ，7 为 
指定 的 超 参 ， 取 值 范围 为 2 ~ 3。 具 体内 容 可 参阅 超 带 9。 
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损失 


0 12.5 25 50 100 
预算 (%) 
1.3 连续 对 半 算 法 示例 
ER: 初始 为 8 个 算法 /配置 ， 总 的 预算 为 18。 每 轮 评估 之 后 ， 会 淘汰 一 半 的 算法 ， 保 留 下 的 算法 的 预 
算 会 加 倍 。 


贾 米 森 和 塔 尔 沃 卡 191 对 几 种 常见 的 Bandit 算法 进行 了 比较 ， 实 验 结果 表明 ， 不 管 
是 在 所 需 的 迭代 次 数 上 还 是 在 所 需 的 计算 时 间 上 ， 连 续 对 半 方 法 都 优 于 对 比方 法 。 另 外 ， 
如 果 算 法 收敛 性 较 好 ， 理 论 上 连续 对 半 方 法 会 优 于 均匀 预算 分 配 策略 。 同 时 ， 该 方法 也 
优 于 很 多 著名 的 Bandit 策略 ， 如 UCB 和 EXP3。 

虽然 连续 对 半 算 法 效率 很 高 ， 但 是 受 限于 如 何平 衡 预算 和 配置 数量 。 具 体 而 言 ， 当 
给 定 总 预算 后 ， 用 户 需 要 提前 决定 是 为 每 个 配置 分 配 较 少 的 预算 以 尝试 更 多 的 配置 ， 
还 是 尝试 较 少 的 配置 以 确保 每 个 配置 能 够 得 到 尽 可 能 多 的 预算 。 在 实际 任务 中 ， 不 管 是 
做 何 选择 都 会 面临 一 定 的 问题 。 因 为 分 配 较 少 的 预算 ， 有 可 能 会 导致 一 些 好 的 配置 过 早 
地 被 终止 ， 为 每 个 配置 分 配 过 多 的 预算 ， 会 导致 一 些 差 的 配置 运行 时 间 较 长 而 浪费 计算 
资源 。 

超 带 四 通过 对 冲 策略 来 解决 随机 配置 采样 中 预算 资源 与 配置 数量 的 平衡 问题 。 具 
体 而 言 , 超 带 首先 基于 “配置 数量 , 单个 配置 预算 ”的 组 合 , 将 总 资源 分 成 若干 组 ;随后 ， 
针对 每 组 采用 连续 对 半 方 法 来 获得 该 组 的 最 佳 配置 。 虽 然 对 冲 策略 包含 在 最 大 预算 下 运 
行 某 些 配置 的 情形 ， 不 过 在 最 大 预算 下 超 带 也 只 会 比 普 通 随机 搜索 多 花费 一 个 常数 因子 
的 时 间 。 事 实 上 ， 由 于 超 带 采 用 了 低 保 真 度 评估 方法 ， 相 比 于 普通 随机 搜索 和 黑 盒 贝 叶 
斯 优化 ， 在 数据 子 集 、 特 征 子 集 和 和 迭代 算法 〈 深 度 神经 网 络 的 随机 梯度 下 降 ) 上 ， 超 带 
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都 更 具 优势 。 

虽然 超 带 能 够 很 好 地 应 用 于 深度 神经 网 络 ， 但 是 其 仍 受 限于 难以 将 配置 设计 策略 应 
用 到 函数 评估 上 。 为 应 对 此 限制 ， 最 新 方法 BOHBea 对 贝 叶 斯 优化 和 超 带 的 各 自 优势 进 
行 了 有 机 结合 优异 的 初始 表现 ， 通 过 采用 超 带 的 低 保 真 度 评估 方法 可 实现 开局 时 的 快 
速 改进 ， 强 劲 的 终局 性 能 ， 通 过 将 超 带 中 的 随机 搜索 替换 为 贝 叶 斯 优化 可 获得 更 好 的 性 
能 。 除 此 之 外 ，BOHB 也 高 效 地 使 用 了 并 行 资源 ， 并 且 能 够 应 对 含有 一 个 到 多 个 超 参 的 
问题 域 。BOHB 的 贝 叶 斯 优化 组 件 类 似 于 TPEna， 主 要 的 不 同 是 采用 了 多 维 核 密度 估计 
量 。 它 只 适用 于 拟 合 至 少 执行 了 | 人 |+1 次 评估 (| 人 为 超 参 数量 的 最 高 保 真 度 的 模型 。 
显然 ，BOHB 的 第 一 个 模型 会 基于 最 低 保 真 度 来 拟 合 ， 但 随 着 时 间 的 推移 ， 模 型 的 训练 
会 逐步 基于 更 高 的 保 真 度 。 不 过 ， 模 型 的 连续 减 半 过 程 会 一 直 基 于 低 保 真 度 。 经验 上 看 ， 
BOHB 在 优化 支持 向 量 机 、 神 经 网 络 、 强 化 学 习 及 本 节 所 给 出 的 大 多 数 算法 四 上 ， 都 
优 于 几 种 目前 先进 的 超 参 优化 模型 。 另 外 ， 文 献 [15，151] 给 出 了 超 带 和 贝 叶 斯 优化 的 
进一步 结合 方案 。 

值得 注意 的 是 ， 多 保 真 度 评估 也 可 以 通过 其 他 方式 与 HPO 相 结合 。 如 文献 [152] 所 
给 出 的 方案 并 非 直接 在 低 保 真 度 和 高 保 真 度 之 间 进行 切换 ， 而 是 先 在 原始 数据 的 子 集 上 
进行 HPO 操作 以 获得 最 好 的 超 参 配置 ， 随 后 将 获得 的 超 参 配置 作为 在 完整 数据 集 上 进 
行 HPO 操作 的 初始 值 。 同 样 ， 为 了 加 快 CASH 问题 的 求解 速度 ， 可 以 根据 算法 及 超 参 
配置 在 小 的 数据 子 集 上 的 表现 好 坏 ， 和 迭代 地 将 其 从 配置 空间 中 进行 剔除 19。 


1.4.3 ” 保 真 度 的 适应 性 选择 


上 面 小 节 中 的 所 有 方法 都 会 遵循 一 个 预先 给 定 的 保 真 度 规划 。 实 际 任务 中 ， 更 希望 
能 够 基于 给 定 的 先前 观测 值 来 主动 选择 合适 的 保 真 度 ， 以 避免 保 真 度 提前 规划 的 误 设 。 

多 任务 贝 叶 斯 优化 "所 采用 多 任务 高 斯 过 程 来 建 模 相关 任务 的 性 能 ， 能 够 在 优化 过 
程 中 自动 学 习 任务 之 间 的 相关 性 。 基 于 代价 敏感 的 信息 理论 采集 函数 ， 多 任务 贝 叶 斯 优 
化 能 够 在 低 成 本 、 低 保 真 度 的 任务 和 高 成 本 、 高 保 真 度 的 目标 任务 之 间 进 行动 态 切换 。 
事实 上 ,在 优化 开始 时 , 该 方法 会 在 低 成 本 的 任务 上 探索 配置 空间 ; 而 在 优化 的 后 面部 分 ， 
该 方法 会 切换 到 高 成 本 的 配置 空间 上 进行 优化 。 整 体 而 言 ， 该 方法 大 约 减少 了 一 半 的 超 
参 优化 所 需 时 间 。 除 此 之 外 ， 多 任务 贝 叶 斯 优化 也 可 以 用 来 传递 之 前 所 优化 任务 的 相关 
信息 “更 多 细节 部 分 会 在 第 2 章 具体 介绍 )。 
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在 实际 任务 中 ， 不 管 是 多 任务 贝 叶 斯 优化 还 是 之 前 介绍 过 的 方法 都 需要 预先 设 定 一 
组 保 真 度 。 然 而 ， 预 先 设 定 一 组 保 真 度 会 存在 一 定 的 不 足 : 首先 ， 预 先 设 定 的 一 组 保 真 
度 会 存在 误 设 的 情况 ™ 由; 其次， 可 以 处 理 的 保 真 度数 量 有 限 ， 通 常 是 5 个 甚至 更 少 。 
因此 ， 可 以 考虑 利用 保 真 度 的 平滑 依赖 性 〈 如 所 使 用 的 数据 子 集 大 小 ) 。 一 般 而 言 ， 连 
续 性 的 保 真 度 能 够 产生 更 好 的 结果 。 例 如 ， 采 用 数据 集 对 某 组 超 参 配置 进行 评估 时 ， 可 
以 将 完整 数据 集 的 选择 设置 为 一 个 连续 百分比 来 进行 控制 ， 又 如 ， 信 息 增益 和 评估 所 需 
时 间 的 权衡 吧 。 为 了 充分 利用 性 能 通常 随 着 数据 增多 或 迭代 次 数 减 少 而 增加 的 领域 知识 ， 
文献 [78] 为 数据 子 集 构建 了 一 个 特殊 的 核 函 数 。 相 比 于 黑 盒 贝 叶 斯 优化 ， 多 任务 贝 叶 斯 
优化 的 这 种 泛 化 操作 使 得 性 能 更 佳 ， 并 且 能 够 获得 10 ~ 100 倍 的 优化 加 速 。 

与 信息 理论 采集 函数 类 似 ， 基 于 上 界 置信 区 间 (Upper Confidence Bound, UCB) 
采集 函数 的 贝 叶 斯 优化 也 能 够 扩展 到 多 保 真 度 W3。 虽然 第 一 个 基于 UCB 的 算法 
MFGP-UCBI 需要 预先 定义 好 保 真 度 ， 但 后 续 的 BOCAW 算法 无 须 预 先 设 定 保 真 度 。 
Ai, BOCA 算法 已 经 被 应 用 到 多 个 连续 保 真 度 的 优化 上 。 相 信 在 未 来 的 HPO 研究 中 ， 
针对 多 个 连续 保 真 度 的 HPO 优化 问题 会 获得 越 来 越 多 的 关注 。 

一 般 而 言 ， 能 够 自动 选择 保 真 度 的 方法 比 在 1.4.2 节 所 讨论 的 基于 Bandit 的 方法 更 
为 吸引 人 ， 也 更 为 强大 。 但 需要 注意 的 是 ， 在 实践 中 ， 想 要 成 功 地 对 保 真 度 进行 自动 选 
择 需 要 更 为 强大 的 模型 。 假 如 模型 不 够 强大 〈 如 缺乏 足够 的 训练 数据 或 者 模型 不 匹配 ) ， 
它们 有 可 能 会 在 高 的 保 真 度 评估 上 花费 太 多 时 间 。 而 且 , 在 时 间 限 制 给 定 的 情况 下 ，1.4.2 
节 所 讨论 的 健壮 性 更 强 的 固定 预算 策略 有 可 能 会 获得 更 好 的 性 能 。 


1.5 AutoML 的 相关 应 用 


本 节 首 先 对 自动 机 器 学 习 中 最 为 重要 的 一 些 超 参 优化 系统 进行 介绍 ， 随 后 对 超 参 优 
化 的 一 些 典型 应 用 进行 概述 和 介绍 。 

20 世纪 90 年 代 ， 网 格 搜索 O 就 开始 在 超 参 优化 中 应 用 。 到 2002 年 ， 一 些 早期 
的 机 器 学 习 工 具 开 始 支持 网 格 搜索 中。 第 一 批 应 用 于 HPO 的 适应 性 优化 方法 是 深度 优 
先 的 贫 禁 搜索 | 和 模式 搜索 "9， 两 者 的 性 能 都 优 于 默认 的 超 参 配置 。 另 外 ， 模 式 搜索 
的 性 能 优 于 网 格 搜索 。 至 于 遗传 算法 ， 最 开始 〈2004 E) 被 用 于 优化 RBF-SVM 中 的 超 
参 C 和 7 。 相 比 于 网 格 搜索 ， 基 于 遗传 算法 的 超 参 优化 能 够 在 更 少 的 时 间 内 取得 更 好 的 
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分 类 结果 。 同 年 ， 相 关 研 究 利 用 进化 算法 来 自动 学 习 SVM 中 3 个 不 同 核 函数 的 组 成 方 
式 〈 即 核 超 参 数 ) 及 联合 选择 相应 特征 子 集 。 由 结果 看 出 ， 组 合 而 成 的 核 函 数 能 够 优 于 
所 有 的 单个 核 函数 。 与 之 类 似 ， 文 献 [129] 采用 遗传 算法 同时 对 SVM 或 神经 网 络 模型 
的 特征 和 超 参 进行 选择 。 

CMA-ES 最 早 被 用 于 超 参 优化 是 在 2005 年 中， 主要 用 来 优化 SVM 的 超 参 : C. y. 
输入 数据 每 一 维度 的 样本 数 / 、 完 整 的 旋转 和 缩放 矩阵 。 最 近 ，CMA-ES 在 并 行 HPO 上 
表现 非常 突出 ， 当 并 行 优 化 〈 同 时 运行 在 30 个 GPU 上 ) 一 个 具有 19 个 超 参 的 深度 神 
经 网 络 时 9", CMA-ES 已 经 超过 了 当前 最 好 的 贝 叶 斯 优化 工具 。 

2009 年 ， 埃 斯 卡 兰 特等 @9 HPO 问题 拓展 成 全 模型 选择 问题 ， 即 同时 包含 预 处 理 
算法 、 特 征 选择 算法 、 分 类 器 和 所 有 相关 的 超 参 。 通 过 使 用 HPO， 该 方法 能 够 基于 现 有 
的 机 器 学 习 算 法 构建 完整 的 机 器 学 习 管 道 。 埃 斯 卡 兰 特等 通过 实践 发 现 ， 他 们 不 仅 能 够 
在 不 需要 任何 领域 知识 的 前 提 下 将 他 们 的 方法 应 用 到 任何 数据 集 上 ， 而 且 同 时 证 明了 他 
们 方法 的 可 应 用 领域 非常 广泛 B 甸 。 另 外 ， 他 们 所 提出 的 粒子 群 模型 选择 算法 (PSMS) 
基于 修改 后 的 粒子 群 优 化 器 能 够 适用 于 条 件 型 配置 空间 。 而 通过 将 PSMS 与 一 个 自 定义 
的 集成 策略 (即将 不 同 代 的 最 优 解 进行 组 合 07) 进行 结合 ， 可 以 有 效 地 避免 模型 过 拟 合 。 
需要 注意 的 是 ， 由 于 粒子 群 优化 最 初 是 用 来 优化 连续 配置 空间 的 ， 所 以 后 来 的 PSMS 
算法 会 采用 遗传 算法 来 优化 管道 的 结构 ， 而 粒子 群 优化 算法 只 能 用 来 优化 每 条 管道 中 
的 超 参 [145] 。 

据 我 们 所 知 , 贝 叶 斯 优化 在 HPO 上 的 第 一 个 应 用 是 在 2005 年 , 即 弗 罗 利 希 和 泽 尔 四 
使 用 在 线 高 斯 过 程 和 EI 结合 的 方式 来 优化 SVM 的 超 参 。 相 比 于 网 格 搜 索 ， 在 一 个 具有 
2 个 超 参 的 分 类 问题 上 获得 了 10 倍 的 加 速 ; 在 一 个 具有 3 个 超 参 的 回归 问题 上 获得 了 
100 倍 的 加 速 。 在 文献 [84] 中， 科恩 等 人 提出 采用 贝 叶 斯 优化 来 学 习 整 个 机 器 学 习 管 道 
中 的 超 参 。 有 具体 而 言 ， 他 们 使 用 一 个 固定 的 机 器 学 习 管 道 ， 并 对 分 类 器 的 超 参 〈 即 每 类 
的 分 类 阔 值 和 类 别 权重 ) 进行 优化 。 

在 2011 年 ， 贝 尔格 斯 特等 (2 率先 将 贝 叶 斯 优化 应 用 到 深度 神经 网 络 的 超 参 优化 ， 
性 能 上 同时 超越 了 手动 搜索 和 随机 搜索 。 此 外 ， 他 们 还 证 明了 TPE 方法 的 性 能 强 于 基于 
高 斯 过 程 的 优化 方法 。 在 联合 神经 结构 搜索 和 超 参 优化 上 ，TPE 方法 和 随机 森林 贝 叶 斯 
优化 方法 都 取得 了 良好 性 能 nt 109, 

将 贝 叶 斯 优化 应 用 到 HPO 的 另 一 个 重要 进展 是 2012 HARSH, Rie 
文 介绍 了 针对 在 Spearmint 系统 中 所 实现 的 基于 高 斯 过 程 的 HPO 的 若干 技巧 ， 取 得 了 深 
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度 神经 网 络 超 参 优 化 的 最 新 基准 结果 。 

与 全 模型 选择 范式 不 同 的 另 一 条 线 是 ，Auto-WEKAn4l (具体 内 容 见 第 4 章 ) 所 介 
绍 的 CASH (算法 选择 和 超 参 优化 组 合 ) 问题 。 在 CASH 问题 中 ， 分 类 算法 的 选择 被 
建 模 成 类 别 型 变量 ， 算 法 超 参 被 建 模 成 条 件 型 变量 ， 而 基于 随机 森林 的 贝 叶 斯 优化 系统 
SMAC 主要 在 最 终 所 形成 的 786 维 配置 空间 中 对 超 参 配置 进行 联合 优化 。 

近年 来 ， 多 保 真 度 方法 变 得 越 来 越 流 行 ， 尤 其 是 在 深度 学 习 中 。 首 先 ， 通 过 采用 如 
基于 数据 子 集 、 特 征 子 集 或 减少 迭代 算法 运行 次 数 的 低 保 真 度 近似 方法 ， 超 带 @ 的 效 
果 能 够 超越 黑 盒 贝 叶 斯 优化 算法 ， 因 为 黑 盒 贝 叶 斯 优化 算法 没有 考虑 到 这 些 低 保 真 度 。 
2018 年 ， 福 克 纳 等 的 论文 9 介绍 了 一 种 灵活 、 和 鲁 棒 且 可 并 行 的 贝 叶 斯 优化 与 超 带 的 结 
合 方案 一 -BOHB。 该 方案 能 够 在 众多 优化 问题 上 显著 超过 超 带 和 黑 盒 贝 叶 斯 优化 ， 包 
括 支持 向 量 机 、 各 种 类 型 的 神经 网 络 及 强化 学 习 算 法 等 。 

接 下 来 ， 针 对 在 HPO 的 实际 应 用 过 程 中 应 选择 什么 样 的 工具 给 出 如 下 建议 。 

"- 如 果 适 用 于 多 保 真 度 ( 即 如 果 定 义 成 本 更 低 的 目标 函数 是 可 行 的 ， 这 样 能 确保 这 

些 低 成 本 目标 函数 的 性 能 与 完整 目标 函数 的 性 能 大 致 相关 ) ， 推 荐 使 用 BOHB0B3I 
作为 健壮 、 高 效 、 通 用 且 可 并 行 化 的 超 参 优化 的 一 种 默认 算法 。 

n 如 果 不 适 用 于 多 保 真 度 : 

一 一 假如 所 有 超 参 都 是 实数 并 且 只 能 提供 几 十 次 的 函数 评估 时 ， 推 荐 使 用 基于 
高 斯 过 程 的 贝 叶 斯 优化 工具 ， 如 Spearmint! ; 

一 一 对 于 大 规模 的 条 件 型 配置 空间 而 言 ， 推 荐 使 用 基于 随机 森林 的 SMAC 或 
dr TPEI 方法 ， 因 为 它们 能 够 在 这 类 任务 上 取得 良好 的 性 能 表现 Um; 

一 一 对 于 纯 实 数 空 间 且 成 本 相对 较 低 的 目标 函数 而 言 ， 假 如 能 够 提供 上 百 次 以 
上 的 函数 评估 ， 推 荐 使 用 CMA-ESIs1。 


1.6 探讨 与 展望 


本 节 主 要 对 HPO 进行 了 探讨 和 展望 ， 希 望 通过 对 HPO 的 开放 性 问题 、 当 前 研究 问 
题 及 潜在 的 进展 所 进行 的 讨论 ， 读 者 能 够 进一步 理解 HPO, HPO 能 够 得 到 进一步 发 展 。 
需要 注意 的 是 ， 虽 然 超 参数 的 重要 性 和 配置 空间 的 定义 是 相关 的 ， 但 本 章 并 没有 对 它们 
进行 讨论 。 因 为 它们 属于 元 学 习 的 范畴 ， 第 2 章 会 对 它们 进行 具体 讨论 和 阐述 。 
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1.6.1 基准 测试 和 基线 模型 


当 给 定 一 系列 的 HPO 方法 时 ， 接 下 来 需要 做 的 是 如 何 评估 每 个 方法 各 自 的 优 劣 势 。 
为 了 公平 地 比较 不 同 的 HPO 方法 ， 自 动机 器 学 习 社区 需要 设计 并 商定 一 组 通用 的 基准 
测试 ， 以 能 够 很 好 地 评估 随 着 时 间 而 出 现 的 新 的 HPO 变 体 ， 如 多 保 真 度 优化 。 为 了 让 
读者 对 此 有 一 个 直观 地 认识 ， 这 里 简单 介绍 COCO (COmparing Continuous Optimizers) 
FE: COCO 平台 为 连续 优化 提供 基准 测试 和 分 析 工具 ， 是 每 年 一 度 的 黑 盒 优化 基准 
测试 挑战 赛 CBBOB) M 的 比赛 平台 。 沿 着 HPO 这 条 线 ， 目 前 已 经 产生 了 超 参 优化 库 
HPOlib 9) 和 针对 贝 叶 斯 优化 方法 的 基准 测试 集 器 。 但 是 ， 这 两 者 都 没有 获得 如 COCO 
平台 那样 的 吸引 力 和 影响 力 。 

另外 ， 自 动机 器 学 习 社 区 需要 明确 地 定义 度量 标准 ， 而 当前 的 情况 是 不 同 的 工作 采 
用 不 同 的 度量 标准 。 当 度量 标准 不 同时 ， 需 要 明确 各 工作 所 给 出 的 算法 性 能 是 基于 验证 
集 还 是 基于 测试 集 。 验 证 集 的 性 能 有 助 于 独立 地 研究 优化 器 的 强度 ， 因 为 其 避免 了 从 验 
证 集 换 到 测试 集 的 评估 过 程 中 所 引入 的 噪声 ， 而 测试 集 的 性 能 表现 ， 将 有 助 于 评估 优化 
器 的 过 拟 合 程度 ， 因 为 部 分 优化 器 的 过 拟 合 程度 会 强 于 其 他 优化 器 ， 但 只 有 通过 测试 集 
才能 诊断 出 优化 器 的 过 拟 合 程度 。 当 度量 标准 不 同时 ， 另 外 一 个 需要 明确 的 点 是 算法 的 
性 能 是 基于 给 定 的 函数 评估 次 数 还 是 基于 给 定 的 评估 时 间 。 后 者 更 关注 于 评估 不 同 超 参 
配置 所 用 的 时 间 差 异 和 优化 开销 ， 进 而 能 够 反映 实践 过 程 中 的 真实 需求 ， 而 前 者 无 须 关 
注 所 使 用 的 硬件 ， 能 够 更 为 方便 地 重 现 相 同 的 实验 结果 。 为 了 提高 可 重复 性 ， 尤 其 是 基 
于 给 定 评估 时 间 的 研究 应 当 发 布 一 个 已 实现 的 版 本 。 

需要 注意 的 是 ， 将 新 的 基准 与 强化 后 的 基线 模型 进行 对 比 是 非常 重要 的 ， 这 也 是 
建议 在 提出 新 的 HPO 方法 时 最 好 配备 相应 的 已 实现 版 本 的 另 一 个 原因 。 然 而 ， 针 对 
HPO， 目 前 还 没有 如 深度 学 习 研 究 那样 便捷 可 用 的 基础 模块 单元 中 171 一 样 的 软件 库 。 
一 个 简单 且 有 效 的 基线 模型 可 以 初步 作为 实际 研究 的 一 个 参考 ， 如 贾 米 森 和 雷 希 特 e 
建议 将 采用 不 同 并 行 化 程度 的 随机 搜索 与 常规 随机 搜索 进行 对 比 ， 以 了 解 并 行 化 的 速 
度 优 势 。 当 与 其 他 优化 技术 进行 比较 时 ， 尽 量 与 效果 较 好 的 实现 版 本 进行 比较 ， 因 为 
很 多 时 候 简单 版 本 的 性 能 可 能 不 够 理想 ， 如 研究 表明 贝 叶 斯 优化 的 简单 版 本 会 产生 较 
差 的 性 能 [79, 140, 142] 。 
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1.6.2 ”基于 梯度 的 优化 


在 特定 案例 中 (如 最 小 二 乘 支 持 向 量 机 、 神 经 网 络 ) ， 获 得 模型 评估 函数 在 一 些 模 
型 超 参 下 的 梯度 是 可 能 的 。 与 黑 盒 超 参 优 化 不 同 ， 基 于 梯度 的 优化 每 次 对 目标 函数 的 评 
估 都 会 获得 一 个 完整 的 超 梯度 向 量 而 非 单个 浮 点 值 ， 能 够 加 快 HPO 的 求解 过 程 。 

在 文献 [99] 中 ， 麦 克 劳 林 等 人 介绍 了 一 种 计算 验证 性 能 在 神经 网 络 的 所 有 连续 超 
参 上 精确 梯度 的 方法 ， 并 通过 带动 量 的 随机 梯度 下 降 算法 〈 一 种 新 颖 且 节 省 内 存 的 算 
法 ) 在 整个 训练 过 程 中 对 梯度 进行 反 向 传播 。 通 过 基于 梯度 的 方法 能 够 高 效 处理 多 个 
超 参 ， 这 为 模型 的 超 参数 化 提供 了 新 的 范例 ， 并 能 够 在 模型 类 型 、 正 则 化 和 训练 方法 
上 获得 更 大 的 灵活 性 。 麦 克 劳 林 等 人 证 明了 基于 梯度 的 HPO 方法 能 够 适用 于 众多 高 维 
HPO 优化 问题 ， 如 分 别 优化 神经 网 络 中 每 轮 迭 代 和 每 层 的 学 习 率 、 优 化 神经 网 络 中 每 
层 的 权重 初始 化 尺度 超 参 、 优 化 逻辑 斯 蒂 回 归 中 每 个 独立 参数 的 7, 范 数 惩罚 项 和 学 习 
全 新 的 训练 数据 集 等 。 需 要 注意 的 是 ， 在 整个 训练 过 程 中 进行 反 向 传播 会 将 训练 过 程 的 
时 间 复 杂 度 增加 一 倍 。 上 述 方 法 也 可 以 被 推广 应 用 到 其 他 参数 更 新 算法 中 9。 为 了 克服 
完整 训练 过 程 中 反 向 传播 的 必要 性 ， 后 续 工 作 允 许 对 与 训练 过 程 交叉 的 单独 验证 集 执行 
超 参 更 新 [5，10，36，37， 93]. 

目前 基于 梯度 优化 的 一 些 示 例 〈 如 简单 模型 的 超 参 优化 79 和 第 3 章 将 会 重点 介绍 
的 神经 网 络 架构 搜索 ) 展现 出 了 令 人 满意 的 结果 ， 甚 至 超过 了 当前 最 好 的 贝 叶 斯 优化 模 
型 。 尽 管 基于 梯度 的 超 参 优化 方法 会 高 度 模型 专用 ， 不 过 该 方法 可 以 支持 几 百 个 超 参 数 
优化 的 这 一 事实 会 使 得 HPO 得 到 实质 性 改进 。 


1.6.3 可 扩展 性 


尽管 多 保 真 度 优 化 近期 取得 了 一 些 成 功 ， 但 是 由 于 规模 等 原因 仍然 存在 很 多 未 
被 HPO 解决 的 机 器 学 习 问 题 ， 可 能 需要 一 些 更 为 新 颖 的 解决 方法 。 在 这 里 ， 规 模 既 
可 以 指 配 置 空间 的 大 小 ， 也 可 以 指 单个 模型 评估 的 开销 。 举 例 而 言 ， 目 前 还 没有 任何 
针对 ImageNet 数据 集 n2 的 深度 神经 网 络 的 HPO 相关 工作 ， 主 要 原因 在 于 哪怕 是 在 
ImageNet 数据 集 上 训练 一 个 简单 的 神经 网 络 都 会 极其 耗 时 。 所 以 在 后 续 的 研究 过 程 中 ， 
是 否 有 方法 〈 如 14 节 的 多 保 真 度 方法 、 基 于 梯度 的 方法 ， 又 或 者 是 第 2 章 将 要 介绍 的 
元 学 习 方 法 ) 能 够 跳出 1.3 节 的 黑 盒 视角 来 解决 HPO 优化 中 的 规模 限制 问题 将 显得 尤为 
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重要 。 虽 然 第 3 章 介绍 了 将 在 小 数据 集 上 学 习 的 神经 网 络 构建 模块 应 用 到 ImageNet 数 
据 集 上 的 首次 成 功 尝试 ， 但 需要 注意 的 是 ， 其 训练 过 程 中 的 超 参 仍 须 手动 设 定 。 

考虑 到 并 行 计算 的 必要 性 ， 耻 须 能 充分 利用 大 规模 计算 集群 的 新 方法 。 虽 然 目前 已 
存在 众多 并 行 贝 叶 斯 优化 相关 的 研究 工作 Ime se e nl, BRT 1.3.2 小 节 中 介 
绍 的 神经 网 络 ul， 目前 为 止 还 没有 一 种 方法 可 以 扩展 到 数 百 个 工作 机 上 。 尽 管 这 些 方 
法 很 受 欢迎 ， 但 对 于 HPO 而 言 ， 只 有 一 个 例外 即 成 功 应 用 到 深度 神经 网 络 上 me， 实际 
上 ， 基 于 种 群 的 方法 还 没有 被 证 明 能 够 适用 于 针对 较 大 数据 集 ( 即 数据 集 含有 的 数据 点 
多 于 几 千 个 ) 的 超 参 优化 。 

期 待 在 后 续 的 研究 工作 中 ， 有 更 多 撒 开 黑 盒 视角 的 更 加 高 级 、 更 加 专 有 化 的 优化 方 
法 ， 能 够 进一步 将 超 参 扩展 到 更 加 有 趣 、 更 加 有 价值 的 问题 上 。 


1.6.4 ”过 拟 合 和 泛 化 性 


过 拟 合 是 超 参 优化 中 的 一 个 开放 性 问题 。 如 1.2 节 的 问题 描述 所 言 ， 通 常 采 用 有 限 
数量 的 数据 点 来 计算 待 优化 的 验证 损失 ， 因 此 无 须 去 优化 未 见 的 测试 数据 集 的 泛 化 性 。 
与 训练 数据 集 上 机 器 学 习 算法 可 能 出 现 过 拟 合 类 似 ， 在 有 限 的 验证 数据 集 上 ， 同 样 有 可 
能 发 生 超 参数 过 拟 合 这 一 问题 。 实 验 也 已 证 明 这 一 点 ， 即 在 有 限 的 验证 数据 集 上 出 现 超 
参数 过 拟 合 ro sn, 

减少 过 拟 合 的 一 种 简单 策略 是 针对 每 个 评估 函数 采用 不 同 的 训练 和 验证 集 划 分 方 
法 。 另 外 ， 实 验 已 证 明 通 过 采用 留 出 〈hold-out) 法 和 交叉 验证 策略 能 够 有 效 提高 SVM 
调 优 的 泛 化 性 能 中。 而 根据 贝 叶 斯 优化 中 高 斯 过 程 模 型 的 最 小 预测 均值 而 非 最 小 观测 值 
来 选择 最 终 的 超 参 配置 ， 能 够 进一步 提高 配置 的 健壮 性 991, 

另 一 种 方案 是 采用 单独 留 出 的 数据 集 来 评估 HPO 所 找到 的 配置 ， 以 避免 配置 偏向 
于 标准 验证 数据 集 ns' !9。 事 实 上 ， 不 同 的 泛 化 性 能 近似 值 会 带 来 不 同 的 测试 性 能 09， 
有 研究 表明 ， 不 同 的 重 采样 策略 会 导致 支持 向 量 机 的 HPO 存在 可 测量 的 性 能 差异 59。 

解决 过 拟 合 的 另 一 种 思路 是 找到 目标 函数 的 稳定 最 优 解 而 非 尖 锐 性 最 优 解 A, h 
于 稳定 最 优 解 ， 超 参 的 轻微 扰动 不 会 改变 最 优 解 附近 的 函数 值 ， 而 对 于 尖锐 性 最 优 解 ， 
超 参 的 轻微 扰动 将 会 改变 最 优 解 附近 的 函数 值 。 当 将 学 习 出 的 超 参 应 用 到 一 个 新 的 且 未 
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见 过 的 数据 集 〈 即 测试 数据 集 )》 时 ， 稳 定 最 优 解 能 够 带 来 更 好 的 泛 化 性 能 。 例 如 ， 在 支 
持 向 量 机 的 HPO 优化 中 ， 基 于 稳定 最 优 解 的 采集 函数 只 出 现 了 轻微 程度 的 过 拟 合 ， 而 
常规 贝 叶 斯 优化 方法 却 会 出 现 较为 严重 的 过 拟 合 现象 I 

如 果 想 要 更 进一步 地 解决 过 拟 合 问题 ， 可 以 考虑 集成 算法 和 1.2.2 节 介绍 的 贝 叶 斯 
算法 。 当 给 定 所 有 技术 方案 时 ， 对 于 如 何 最 大 程度 地 避免 过 拟 合 还 没有 一 种 共识 性 技术 。 
换言之 ， 在 特定 HPO 问题 上 ， 哪 种 技术 方案 最 优 仍然 取决 于 用 户 。 总 的 来 说 ， 在 实际 
任务 中 ，HPO 问题 不 同 ， 最 佳 策略 也 可 能 会 不 同 ， 即 因 问 题 而 异 。 


1.6.5 任意 尺度 的 管道 构建 


目前 为 止 ， 讨 论 的 所 有 HPO 技术 都 会 假定 机 器 学 习 管 道 的 组 件 是 有 限 的 或 者 神经 
网 络 的 最 大 层级 数量 是 有 限 的 。 对 于 机 器 学 习 的 管道 构建 〈 本 书 的 第 2 篇 会 着 重 介绍 这 
部 分 内 容 ) 而 言 ， 使 用 多 个 特征 预 处 理 算法 并 能 够 基于 问题 本 身 来 动态 添加 这 些 算 法 是 
非常 有 用 的 。 有 具体 来 说 ， 可 通过 超 参 数 来 扩大 搜索 空间 ， 进 而 能 够 选择 合适 的 预 处 理 算 
法 及 其 对 应 的 超 参数 。 虽 然 标准 黑 盒 优化 工具 能 够 较为 容易 地 将 若干 个 预 处 理 程序 〈 及 
其 超 参 数 ) 以 条 件 型 超 参 的 形式 添加 到 搜索 空间 中 ， 但 是 难以 支持 任意 数量 的 预 处 理 程 
序 〈 及 其 超 参 数 ) 。 

一 种 可 行 且 自 然 的 方案 是 采用 树 状 管道 优化 工具 包 [TPOT (treestructured pipeline 
optimization toolkit) ms5， 详 情 见 第 8 | 来 解决 任意 尺度 管道 的 构建 问题 ，TPOT 主要 
采用 遗传 规划 方法 并 通过 语法 来 描述 可 能 的 管道 结构 。 除 此 之 外 ， 为 了 避免 最 终生 成 过 
于 复杂 的 管道 ，TPOT 采用 多 目标 优化 来 平衡 管道 的 复杂 度 和 性 能 。 

除 TPOT 这 类 管道 构建 方法 之 外 ， 还 存在 一 种 基于 层级 规划 的 管道 构建 范式 ， 在 实 
际 任务 中 表现 出 了 良好 的 性 能 。 举 例 而 言 ， 近 期 的 ML-Plan 模型 00. 109 通过 采用 层级 任 
务 网 络 ， 获 得 了 具有 竞争 力 的 性 能 表现 ( 相 比 于 Auto-WEKAN49 和 Auto-sklearn!) 。 

到 目前 为 止 ， 上 面 介绍 的 方法 并 不 总 是 优 于 固定 管道 长 度 的 AutoML 系统 ， 不 过 更 
长 的 管道 可 能 带 来 更 多 的 性 能 改进 。 与 之 类 似 ， 神 经 网 络 架 构 搜 索 会 产生 复杂 的 配置 空 
间 ， 第 3 章 会 具体 介绍 解决 此 问题 的 相关 方法 。 
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概述 : 元 学 习 ， 又 称 为 “学 习 的 学 习 ”， 是 一 门 系统 地 观察 不 同 机 器 学 习 方法 在 不 同学 习 任 务 上 
表现 的 科学 。 通 过 在 经 验 或 元 数据 上 的 学 习 ， 元 学 习 能 够 比 其 他 方法 更 快 地 完成 新 的 学 习 任 务 。 
元 学 习 不 仅 能 够 显著 加 速 和 提升 机 器 学 习 管道 或 神经 架构 的 设计 ， 还 能 够 以 由 数据 驱动 方式 所 学 
习 的 新 方法 替代 由 人 工 所 设计 的 算法 。 本 章 将 着 重 介绍 这 一 迷人 且 不 断 发 展 的 领域 研究 的 新 进展 。 


2.1 51 & 


当 人 类 在 学 习 新 技能 时 ， 很 少 〈 甚 至 没有 ) 直接 从 零 开 始 。 大 多 数 情况 下 ， 我 们 会 
从 已 学 习 过 的 相关 任务 中 所 获得 的 技能 开始 ， 如 复 用 之 前 表现 良好 的 方法 及 基于 经 验 重 
点 关注 那些 更 有 价值 的 尝试 四。 随 着 技能 的 逐 项 学 习 ， 新 技能 的 学 习 将 会 变 得 越 来 越 容 
易 ， 所 需要 的 示例 和 尝试 次 数 也 会 越 来 越 少 。 简 而 言 之 ， 人 类 能 够 学 习 到 如 何 进行 跨 任 
务 学 习 。 与 之 类 似 ， 当 为 一 个 特定 任务 构建 机 器 学 习 模型 时 ， 通 常 也 会 用 到 相关 任务 的 
经 验 或 者 用 到 对 机 器 学 习 方 法 的 理解 (通常 是 隐 式 的 ) ， 以 做 出 更 为 合适 的 选择 〈 即 适 
合 该 任务 的 机 器 学 习 方法 ) 。 

元 学 习 的 主要 挑战 在 于 如 何 用 一 种 系统 性 的 、 数 据 驱动 的 方式 从 过 往 的 经 验 中 进行 
学 习 。 具 体 而 言 ， 首 先 需要 对 描述 之 前 学 习 任 务 和 学 习 出 的 模型 的 元 数据 进行 收集 。 这 
些 元 数据 涵盖 了 用 于 训练 模型 的 准确 的 算法 配置 信息 ， 具 体 有 超 参 设置 、 管 道 结构 、 神 
经 网 络 结构 、 模 型 评估 结果 《如 准确 度 和 训练 时 间 ) 、 学 习 出 的 模型 参数 〈 如 神经 元 的 
训练 权重 )、 任 务 自身 的 可 测量 属性 (也 称 为 元 特征 ) 。 其 次 ， 需 要 从 这 些 收 集 的 元 数 
据 中 进行 学 习 ， 以 获得 能 够 指导 检索 新 任务 最 优 模型 的 知识 。 本 章 后 续 会 详细 介绍 相应 
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的 元 学 习 方法 。 

元 学 习 这 一 概念 涵盖 的 范围 较 广 ， 只 要 是 基于 先前 其 他 任务 的 经 验 进行 学 习 的 方法 
都 可 以 归纳 到 元 学 习 范 畴 。 之 前 的 任务 越 相 似 ， 能 够 利用 到 的 元 数据 类 型 就 越 多 。 毫 无 
疑问 ， 如 何 定义 任务 之 间 的 相似 性 将 会 是 元 学 习 中 的 一 个 主要 挑战 。 毫 无 疑问 ， 有 得 就 
RARE 中 。 当 一 个 新 任务 表现 出 完全 不 相关 或 者 含有 大 量 随 机 噪声 时 ， 之 前 的 经 验 
对 该 新 任务 将 会 无 效 。 幸 运 的 是 ， 在 现实 世界 中 ， 新 任务 并 非 与 之 前 经 验 毫 无 关联 ， 这 
也 是 元 学 习 在 实际 任务 中 有 非常 广泛 适用 范围 的 原因 。 

本 章 其 余 小 节 对 元 学 习 的 技术 进行 分 类 介绍 ， 主 要 基于 它们 所 使 用 的 元 数据 类 型 
从 最 为 一 般 化 的 元 数据 类 型 到 最 为 任务 相关 的 元 数据 类 型 。 首 先 ，2.2 节 主要 介绍 了 如 
何 直接 从 模型 评估 中 进行 学 习 。 这 些 技术 可 用 来 推荐 通常 有 用 的 配置 和 配置 搜索 空间 ， 
以 及 从 经 验 上 相似 的 任务 之 间 迁 移 知识 。 随 后 ，2.3 节 讨 论 了 如 何 刻画 任务 才能 够 更 好 
地 表达 任务 之 间 的 相似 性 ， 并 且 对 能 够 学 习 数 据 特性 和 学 习性 能 之 间 关系 的 元 模型 进行 
了 阐述 。 最 后 ，2.4 节 讨 论 了 如 何在 本 质 上 相似 的 任务 之 间 传 递 训练 出 的 模型 参数 ， 如 
共享 相同 的 输入 特征 。 模 型 参数 的 成 功 传递 将 会 有 力 地 支撑 迁移 学 习 111 和 小 样本 学 习 029 
的 实现 。 

另外 ， 多 任务 学 习 《 多 个 相关 的 任务 同时 进行 学 习 ) 9) 和 集成 学 习 《〈 在 同一 个 任务 
上 构建 多 个 模型 ) 09 也 可 以 与 元 学 习 系 统 进行 结合 ， 不 过 它们 自身 并 不 会 从 其 他 任务 的 
先前 经 验 中 学 习 。 

需要 说 明 的 是 ， 本 章 的 内 容 主要 基于 近期 最 为 相关 的 一 篇 综述 文献 [176]， 感 兴趣 
的 读者 可 以 参阅 文献 。 


2.2 模型 评估 中 学 习 


假设 可 以 访问 所 有 之 前 的 任务 六 eT (T 表 示 所 有 已 知 的 任务 集合 ) 和 其 对 应 的 由 
配置 be@ 来 定义 的 学 习 算法 。 其 中 ，@ 表示 一 个 离散 、 连 续 或 者 混合 的 配置 空间 ， 涵 
盖 了 超 参 设置 、 管 道 的 组 成 部 分 或 神经 网 络 结构 的 组 成 部 分 。 给 定 评估 指标 〈 如 准确 
度 ) 和 模型 评估 技术 如 交叉 验证 ) ，P 为 所 有 之 前 标量 评估 的 集合 。 基 本 组 成 元 素 为 
P,=P(0,,t,) ， 表 示 配置 0, 在 任务 1 上 的 评估 。P, 为 在 新 任务 4。 上 所 有 已 知 评估 PP, 
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的 集合 。 接 下 来 需要 训练 一 个 元 学 习 器 工 ， 其 能 够 为 新 任务 tev 预测 推荐 的 配置 Oo 。 
其 中 ， 元 学 习 器 工 主要 基于 元 数据 PUP。 进行 训练 。 通 常 而 言 ，P 卫 需要 提前 收集 好 ， 或 
直接 从 元 数据 存储 库 中 提取 e 5。 而 及。 由 元 学 习 技术 自身 以 迭代 的 方式 学 习 出 ， 有 
时 也 会 使 用 由 其 他 方法 所 生成 的 已。 作为 学 习 的 初始 值 〈 即 热 启动 ) 。 


2.2.1 独立 于 任务 的 推荐 


首先 ， 假 设 无 法 访问 新 任务 和 sw MEME HAR, WP. =o. BER, SIR 
:9xT 字 {GC},k=1…, 玉 ， 生 成 一 组 独立 于 任务 few 的 推荐 配置 。 随 后 ， 在 任务 te 上 对 
这 些 生成 的 推荐 配置 o 进行 评估 ， 选 择 表现 最 好 的 配置 ， 或 者 作为 进一步 优化 方法 〈 如 
2.2.3 节 中 所 讨论 的 方法 ) 的 热 启动 初 值 。 

通常 ， 上 述 方法 会 产生 一 个 O 的 排名 。 具 体 而 言 ， 首 先 将 @ 离散 到 一 组 候选 配置 
8 上 也 称 为 配置 组 合 ) ， 并 采用 大 量 任务 1; 来 进行 评估 。 接 下 来 ， 针 对 每 个 任务 构建 
一 个 排名 ， 如 基于 成 功率 、AUC 或 有 效 胜出 Un 中 。 需 要 注意 的 是 ， 效 果 相 同 但 运行 
速度 更 快 的 算法 应 被 排 在 更 靠 前 的 位 置 ， 这 也 是 为 何 有 较 多 致力 于 平衡 准确 度 和 训练 时 
间 的 算法 被 提出 的 原因 RP1' 84。 随 后 ， 将 这 些 单 任务 的 排名 聚合 成 一 个 全 局 性 的 排名 ， 
如 计算 所 有 任务 的 平均 排名 W" 20。 当 数据 不 足以 构建 一 个 全 局 性 排名 时 ， 可 以 基于 之 前 
每 个 任务 的 最 好 配置 来 推荐 配置 的 子 集 0. 73， 或 者 直接 返回 一 个 拟 线性 排名 B, 

为 了 给 从 未 见 过 的 任务 ,找到 最 佳 的 配置 9 ， 一 种 简单 的 随时 方法 是 选择 top- 天 
配置 中， 即 沿 着 列表 依次 在 任务 few 上 评估 每 个 配置 。 当 达到 给 定 的 天 值 、 给 定 的 时 间 
预算 或 者 找到 足够 精度 的 模型 时 ， 便 可 以 停止 该 评估 过 程 。 已 有 研究 表明 ， 在 限制 时 间 
的 设 定 下 ， 多 目标 排序 (包含 训练 时 间 〉 能够 更 快 地 收敛 到 近 最 优 模型 目 230， 同 时 能 够 
为 算法 比较 提供 一 个 强劲 的 基准 目 85, 

与 上 述 方法 非常 不 同 的 另 一 种 方法 是 ， 首 先 为 特定 任务 1; 上 所 有 先前 的 评估 拟 合 一 
个 可 微 函数 /, (0)=P,， 接 着 基于 该 可 微 函数 采用 梯度 下 降 方法 学 习 出 每 个 先前 任务 的 
最 优 配置 O ns9。 假 如 存在 某 些 任务 六 类 似 于 新 任务 ie, ， 那 么 其 所 对 应 的 最 优 配置 0 
将 有 助 于 热 启动 贝 叶 斯 优化 方法 。 


2.2.2 配置 空间 的 设计 


先前 的 评估 也 可 以 用 来 学 习 出 一 个 更 好 的 配置 空间 O^ 。 虽 然 @ 同样 独立 于 任务 fewv， 
但 是 可 以 显著 加 快 最 优 模 型 的 寻找 速度 ， 因 为 它 在 寻找 过 程 中 只 会 探索 配置 空间 中 更 为 
相关 的 区 域 。 尤 其 在 计算 资源 有 限时 ， 该 方法 十 分 重要 ， 而 且 O 已 经 被 证 明 是 自动 机 
器 学 习 系 统 的 实际 对 比 中 的 一 个 重要 因素 91, 

一 种 方法 是 在 泛 函 误差 分 析 CANOVA) I 法 中 ， 那 些 能 够 解释 给 定 任 务 的 算法 性 
能 大 部 分 差异 的 超 参 会 被 认为 是 更 加 重要 的 。 文 献 [136] 对 此 进行 了 探究 和 验证 。 具 体 
而 言 ， 在 100 个 数据 集 上 ， 对 3 个 给 定 的 算法 进行 了 250 000 次 OpenML 实验 。 

另 一 种 方法 是 首先 学 习 出 一 个 最 优 的 超 参 (默认 设置 ) ， 随 后 通过 调 优 该 超 参数 而 
非 保 留 默 认 值 所 获得 的 性 能 增益 定义 该 超 参数 的 重要 性 。 确 实 ， 超 参 有 可 能 会 带 来 较 大 
的 波动 性 ， 但 也 可 能 存在 一 个 总 是 能 够 带 来 良好 性 能 的 特定 超 参 设置 。 具 体 而 言 ， 首 先 
通过 在 大 量 任 务 上 对 特定 算法 的 代理 模型 进行 训练 ， 以 联合 学 习 出 该 算法 所 有 超 参 的 默 
认 值 。 接 下 来 ， 对 多 个 配置 进行 采样 ， 将 在 所 有 任务 中 平均 风险 最 小 的 配置 作为 推荐 的 
默认 配置 。 最 后 ， 对 每 个 超 参 的 重要 性 (或 可 调 性 ) 进行 评估 ， 也 就 是 将 调 优 该 超 参 所 
获得 的 性 能 改进 作为 该 超 参 的 重要 性 评估 值 。 文 献 [120] 为 此 通过 在 6 个 算法 和 38 个 数 
据 集 上 进行 了 500 000 次 OpenML 实验 。 

在 文献 [183] 中 ， 超 参 默 认 值 的 学 习 彼此 之 间 是 相互 独立 的 ， 而 非 上 述 方法 介绍 的 
彼此 之 间 是 联合 的 。 对 每 个 任务 而 言 ， 将 在 前 天 个 配置 中 出 现 频率 最 高 的 配置 作为 对 应 
超 参 的 默认 值 。 当 最 优 默 认 值 依赖 于 元 特征 〈 如 训练 实例 或 特征 的 数量 ) 时 ， 可 以 学 习 
出 包含 这 些 元 特征 的 简单 函数 。 接 下 来 ， 根 据 固 定 某 个 超 参 〈 或 一 组 超 参 ) 而 调 优 其 他 
超 参 的 方法 所 带 来 的 性 能 损失 的 统计 测试 来 决定 是 否 能 够 安全 地 保留 该 超 参 的 默认 值 。 
最 后 ， 通 过 在 59 个 数据 集 和 2 个 算法 《支持 向 量 机 和 随机 森林 ) 上 进行 了 118 000 次 
OpenML 实验 对 该 方法 实施 评估 。 


2.2.3 配置 迁移 
如 果 想 要 为 特定 的 任务 few 提供 推荐 的 配置 ， 首 先 需要 了 解 tev Is Af BEES cz RTI 


相似 性 这 一 附加 信息 。 一 种 解决 方案 是 通过 评估 ,上 的 一 些 推荐 (或 者 是 潜在 的 随机 》 
配置 ， 以 产生 新 的 证 据 P。,。 假 如 新 的 评估 忆 ,, 与 先前 的 评估 卫 ,; 较 为 相似 ， 那 么 基于 经 
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验 性 证 据 ， 可 以 认为 任务 1; 和 任务 i 本 质 上 是 类 似 的 。 基 于 此 知识 ， 可 以 训练 出 一 个 
能 够 为 任务 few 预测 推荐 配置 集 Ou 的 元 学 习 器 。 此 外 ， 可 以 对 每 个 选 定 的 0, 进行 评 
估 并 将 评估 结果 添加 到 中 ， 重 复 此 循环 以 收集 更 多 的 经 验 性 证 据 ， 进 而 能 够 更 好 地 
了 解 哪些 任务 之 间 彼 此 是 相似 的 。 

1. 相对 差异 


衡量 任务 相似 性 的 第 一 种 测量 方法 是 计算 性 能 的 相对 (成 对 差异， 也 称 为 相对 
标记 (relative landmarks) (1， 即 在 特定 任务 t 上 两 个 配置 9, 和 6, 之 间 的 评估 差异 : 
RL, ,j= 也, ;。 接 下 来 ， 着重 介绍 能 够 利用 相对 差异 的 主动 测试 方法 中。 具体 而 言 ， 
主动 测试 会 以 全 局 性 的 最 佳 配 置 (具体 内 容 见 2.2.1 节 ) 作为 配置 的 初始 值 ( 记 为 byes) ， 
并 以 类 锦标 赛 的 方式 推进 学 习 过 程 。 在 每 轮 学 习 中 ， 该 方法 会 选择 出 在 类 似 任务 上 最 有 
可 能 超越 Qu 的 “竞争 者 ”6. 。 如 果 所 有 评估 过 的 配置 的 相对 差异 都 较为 相似 ， 则 认为 
任务 是 相似 的 。 换 而 言 之 ， 假 如 配置 在 任务 六 和 tw 上 的 表现 类 似 ， 那 么 可 认为 任务 广 
和 tw 相似 程度 较 高 。 随 后 ， 对 配置 9. 进行 评估 (会 产生 新 的 评估 结果 已 ) 及 对 任务 
相似 性 进行 更 新 ， 并 重复 此 过 程 。 需 要 注意 的 是 ， 该 方法 存在 一 定 的 局 限 性 ， 即 只 能 考 
虑 在 多 个 先前 任务 上 评估 过 的 那些 配置 0 。 


2. 代理 模型 


一 种 更 为 灵活 的 迁移 信息 的 方法 是 为 所 有 的 先前 任务 浅 建 立 代理 模型 % (8) =P,» 
并 在 所 有 可 用 的 评估 PP 上 进行 训练 。 随 后 ， 可 基于 s, (8) 和 Pi 之 间 的 误差 来 定义 任务 
相似 程度 。 如 果 任 务 t; 的 代理 模型 能 够 为 任务 few 生成 准确 的 预测 值 ， 则 任务 六 和 任务 
Los 本 质 上 是 相似 的 。 通 常 而 言 ， 该 方法 会 与 贝 叶 斯 优化 方法 (具体 内 容 见 第 1 章 ) 相 
结合 以 生成 下 一 个 0 。 

在 文献 [187] 中 ， 维 斯 图 巴 等 采用 高 斯 过 程 来 训练 每 个 先前 任务 和 新 任务 hew 的 代理 
模型 ， 并 采用 预测 的 均值 /将 它们 组 合成 一 个 加 权 的 标准 化 和 。 其 中 ，4 为 单个 J，( 来 
自 于 先前 的 任务 1 〉 的 加 权 和 。 而 4 的 权重 主要 采用 Nadaraya-Watson 加 权 核 平均 方法 
来 进行 计算 。 其 中 ， 每 个 任务 以 相对 差异 的 向 量 来 表示 ， 并 采用 Epanechnikov 二 次 核 函 
数 n 叫 来 衡量 任务 六 和 如 w 相对 差异 向 量 的 相似 程度 。 任 务 态 与 如 w 越 相似 ， 则 权重 8 值 
越 大 ， 即 提高 了 代理 模型 的 重要 性 。 

在 文献 [45] 中 ， 弗 雷 尔 等 提出 对 单个 高 斯 过 程 的 预测 分 布 进行 组 合 ， 使 得 组 合 后 的 
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模型 再 次 成 为 高 斯 过 程 。 权 重 的 计算 基于 拉 科斯 特等 中 提出 的 不 确定 性 贝 叶 斯 集成 方 
法 ， 主 要 根据 对 泛 化 性 能 的 估计 来 对 预测 器 进行 赋 权 。 

元 数据 也 可 以 直接 在 采集 函数 (而 不 用 通过 代理 模型 》 上 进行 迁移 "80. SE, d 
理 模 型 只 在 ,上 进行 训练 ， 而 下 一 个 待 评估 的 配置 ,由 采集 函数 提供 ， 该 采集 函数 为 
在 已 ,上 的 期 望 提升 外 和 在 所 有 之 前 已 ;上 的 预测 提升 的 加 权 和 。 先 前 任务 的 权重 同样 
可 以 基于 代理 模型 的 准确 度 或 相对 差异 来 定 。 另 外 ， 随 着 迭代 的 进行 ， 期 望 提升 部 分 的 
权重 会 逐渐 提高 ， 因 为 收集 到 的 呈 , 越 来 越 多 。 


3. 热 启动 的 多 任务 学 习 


另 一 种 获得 之 前 任务 ;相似 性 的 方法 是 利用 评估 数据 学 习 一 个 联合 的 任务 表 
征 。 文 献 [114] 提出 在 新 的 配置 9 上 训练 一 个 任务 相关 的 贝 叶 斯 线性 回归 中 代理 模型 
5,(07), ACE O° 由 一 个 能 够 学 习 合适 的 原配 置 6 基 扩展 的 前 馈 神 经 网 络 NN (0,) 学 习 
而 得 。 其 中 ， 线 性 代理 模型 能 够 准确 预测 PP,。, 。 另 外 ， 代 理 模 型 会 先 在 OpenML 元 数据 
上 进行 预 训练 ,进而 能 够 在 多 任务 学 习 环境 中 为 优化 NN (0,) 网 络 提供 一 个 良好 的 开端 。 
在 多 任务 学 习 的 早期 工作 "9 中， 会 假定 已 经 有 了 相似 源 任务 1 的 集合 。 随 后 ， 通 过 建 
立 一 个 用 于 贝 叶 斯 优化 的 联合 GP 模型 来 传递 任务 1; 和 4。 之 间 的 信息 ， 进 而 能 够 学 习 和 
利用 任务 之 间 的 精确 关系 。 不 过 通常 而 言 ， 联 合 GP 模型 的 可 扩展 性 往往 不 如 针对 每 个 
任务 单独 建立 的 GP 模型 。 在 文献 [161] 中 ， 斯 普 林 伯 格 等 同样 假定 任务 之 间 是 相关 且 
相似 的 。 不 过 不 同 的 是 ， 斯 普 林 伯 格 等 是 在 优化 过 程 中 通过 贝 叶 斯 神经 网 络 学 习 任务 之 
司 的 关联 性 的 。 从 某 种 程度 上 来 说 ， 他 们 的 方法 更 像 是 前 面 两 种 方法 的 混合 。 在 文献 [58] 
中 ， 戈 洛 文 等 假定 任务 之 间 是 顺序 〈 如 时 间 ) 相关 的 。 有 具体 而 言 ， 首 先 会 对 每 个 任务 均 
构建 一 个 GP 回归 元 的 堆栈 。 随 后 , 会 基于 每 个 回归 元 后 面 的 残 差 来 训练 每 个 高 斯 过 程 。 
因此 ， 在 定义 先 验 过程 中 ， 每 个 任务 都 会 用 到 它 之 前 任务 的 信息 。 


4. 其 他 技术 


ZBL 提供 了 另外 一 种 寻找 任务 kew 最 相关 的 源 任务 i 的 方法 9。 在 多 辟 机 中 ， 
每 一 个 任务 1 可 视 为 一 种 动作 ， 且 选择 一 个 特定 先前 任务 的 (随机 〉 奖 励 定义 为 基于 
GP 贝 叶 斯 优化 器 的 预测 值 的 误差 。 该 优化 器 能 够 将 任务 i 的 先前 评估 建 模 成 有 噪声 的 
计量 ， 并 将 它们 与 ,上 的 现 有 评估 进行 结合 。 不 过 ，GP 的 立方 缩放 并 降低 了 该 方法 的 
可 扩展 性 。 
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另 一 种 定义 任务 相似 性 的 方法 029. 是 首先 采用 汤普森 采样 ns 在 现 有 的 评估 已, 上 获 
得 最 优 分 布 pz ， 随 后 计算 分 布 pi 和 As 之 间 的 KL 散 度 四 。 接 下 来 ， 基 于 相似 性 将 
这 些 分 布 合并 到 一 个 混合 分 布 中 ， 并 用 之 构建 一 个 采集 函数 。 该 采集 函数 能 够 预测 下 一 
个 最 有 潜力 的 待 评估 配置 。 目 前 为 止 ， 该 方法 只 在 两 个 SVM 超 参 的 调 优 上 做 了 评估 (使 
用 了 5 个 任务 ) 。 

最 后 ， 利 用 评估 数据 的 一 种 补充 方法 是 推荐 不 应 该 被 使 用 的 配置 。 当 训练 完 每 个 任 
务 的 代理 模型 后 ， 可 以 找 出 与 任务 they 最 为 相似 的 任务 t,» Be, EFE s (2 ) 计算 出 9 中 
预测 性 能 较 差 的 区 域 。 剔除 掉 这 部 分 区 域 后 , 可 以 加 速 最 优 配置 的 搜索 速度 。 在 文献 [185] 
中 , 维 斯 图 巴 等 通过 使 用 基于 肯 德 尔 等 级 相关 系数 9 的 任务 相似 性 度量 来 实现 这 一 方法 。 
其 中 ， 肯 德尔 等 级 相关 系数 主要 计算 的 是 使 用 已 ,所 获得 的 配置 8 的 排序 和 使 用 i。 所 
获得 的 配置 2 的 排序 之 间 的 肯 德 尔 等 级 相关 系数 。 


2.2.4 学 习 曲 线 


事实 上 ， 也 可 以 从 训练 过 程 自身 中 提取 元 数据 ， 如 随 着 更 多 训练 数据 的 添加 ， 模 型 
性 能 的 相应 增长 速度 。 如 果 以 步骤 % 来 划分 训练 过 程 且 在 每 步 增加 固定 数量 的 训练 实例 ， 
可 以 在 步骤 % 之 后 测量 出 任务 六 上 配置 6 的 性 能 P(6.,4,s,)=P,,。 随 后 ， 可 根据 时 间 步 s, 
生成 一 条 学 习 曲 线 。 正 如 在 第 1 章 中 所 讨论 的 ， 学 习 曲 线 可 以 用 来 加 速 给 定 任务 的 超 参 
优化 速度 。 在 元 学 习 中 ， 学 习 曲 线 的 信息 可 以 在 任务 之 间 进 行 传递 。 

当 评 估 新 任务 ,的 某 个 配置 时 ， 可 以 在 特定 的 迭代 次 数 〈(r<t) 后 停止 训练 过 程 ， 
并 基于 其 他 任务 的 学 习 经 验 ， 采 用 部 分 观测 到 的 学 习 曲 线 对 配置 在 全 数据 集 上 的 表现 进 
行 预测 。 随 后 ， 根 据 预测 出 的 表现 来 决定 是 否 继续 进行 训练 。 该 方法 可 以 显著 加 快 配置 
的 搜索 速度 。 

有 一 种 方法 是 假设 相似 的 任务 会 产生 相似 的 学 习 曲 线 。 首 先 ， 基 于 部 分 学 习 曲 线 之 
间 的 相似 度 来 定义 任务 之 间 的 距离 : dist(t,.,)=f(Po,Ps,) - HP tale PR, 
基于 距离 找 出 大 个 最 为 相似 的 任务 站 *， 并 使 用 它们 的 完整 学 习 曲 线 来 预测 配置 在 新 的 
完整 数据 集 上 的 表现 情况 。 任 务 相似 性 也 可 以 通过 比较 所 有 已 尝试 过 的 配置 的 部 分 曲线 
形状 来 进行 衡量 , 随后 将 “最 近 ? 的 完整 曲线 适 配 到 新 的 部 分 曲线 上 即 为 预测 5 99, Eg, 
该 方法 已 被 成 功 结合 到 主动 测试 中 9。 除 此 之 外 ， 当 使 用 包含 训练 时 间 在 内 的 多 目标 评 
价 指 标 时 ， 该 方法 能 够 有 效 提升 模型 的 学 习 速 度 na 。 
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有 趣 的 是 ， 虽 然 一 些 方法 由 在 预测 神经 网 络 架构 搜索 (具体 内 容 见 第 3 章 ) 过 程 中 
的 学 习 曲 线 , 但 是 迄今 为 止 , 这 些 工作 都 没有 利用 之 前 在 其 他 任务 中 观察 到 的 学 习 曲 线 。 


2.3 任务 特性 中 学 习 


除了 2.2 节 提 到 的 评估 数据 外 ， 另 一 种 较为 丰富 的 元 数据 来 源 是 手头 任务 的 特性 
ERD o RETK, EMES t eT 以 含有 个 元 特征 ms e M IH m(r,)- 
(mioma) 来 表示 。 其 中 ，M 表 示 所 有 已 知 元 特征 的 集合 。 随 后 ， 基 于 元 特征 向 量 
m) 和 m(t,) ， 可 采用 欧 几 里 得 距离 等 度量 方法 来 计算 任务 之 间 的 相似 性 。 进 而 ， 能 
够 将 最 为 相似 的 任务 信息 迁移 到 新 任务 ks 。 再 者 ， 通 过 结合 先前 的 评估 结果 已， 可 以 
训练 一 个 能 够 预测 配置 0, 在 新 任务 4 中 性 能 已。 的 元 学 习 器 工 。 


2.3.1 元 特征 


表 2.1 概述 了 常用 的 元 特征 ， 并 给 出 了 它们 为 何 与 模型 性 能 相关 的 简要 理由 。 除 此 
之 外 ， 表 2.1 也 尽 可 能 地 给 出 了 它们 的 计算 公式 。 更 为 完整 的 综述 参阅 文献 [26，98， 
130, 138, 175]. 

为 构建 元 特征 向 量 m(1,) ， 需 要 选择 和 进一步 地 处 理 这 些 元 特征 。 在 OpenML 元 数 
据 中 的 研究 表明 ， 最 优 的 元 特征 集 取决 于 应 用 本 身 Im。 大 多 数 元 特征 的 获取 来 自 于 单个 
特征 或 者 组 合 特征 ， 需 要 进一步 通过 汇总 统计 〈 最 小 值 、 最 大 值 、/、c 、 四 分 位 数 、 
da) 或 直方 图 进行 聚合 四。 在 文献 [117] 中 ， 对 它们 进行 了 系统 性 的 提取 和 聚合 。 在 
计算 任务 相似 性 时 ， 对 所 有 元 特征 进行 归 一 化 四 、 对 元 特征 进行 筛选 "2 或 对 元 特征 进 
行 降 维 tm (如 PCA 方 法 ) 也 是 非常 重要 的 。 当 学 习 元 模型 时 ， 可 以 采用 关系 元 学 习 器 1 
或 者 基于 案例 的 推理 方法 me n 

除了 上 述 那 些 通用 的 元 特征 之 外 ， 还 有 很 多 较为 专 有 化 的 元 特征 ， 如 针对 流 数据 有 
流 式 特征 点 as 50、 针对 时 序数 据 可 以 计算 自 相 关系 数 或 回归 模型 的 斜率 tme m, pl 
及 针对 非 监 督 问题 可 以 采用 不 同 的 方法 对 数据 进行 聚 类 并 对 聚 类 结果 的 属性 进行 提取 1 
另外 ， 在 很 多 实际 应 用 中 ， 可 以 充分 考虑 和 利用 领域 相关 的 信息 nm cn 
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2.3.2 元 特征 的 学 习 


除了 手动 定义 元 特征 之 外 ， 还 可 以 为 多 个 任务 学 习 出 一 组 联合 表征 。 其 中 一 种 方法 
是 , 当 给 定 其 他 任务 的 元 特征 M 时 ,建立 能 够 生成 特征 类 似 的 元 特征 表征 M' 的 元 模型 ， 
并 基于 性 能 元 数据 或 / :Mr M 对 元 模型 进行 学 习 。 孙 和 普法 林 格 99 通过 评估 一 组 
预定 义 的 配置 8 在 所 有 之 前 任务 上 的 表现 来 实现 该 方法 。 具 体 而 言 ， 会 对 每 一 个 配置 
0, 和 ,的 成 对 组 合生 成 一 个 二 进 制 的 元 特征 me M' ， 用 以 表明 配置 ,的 性 能 是 否 优 
于 配置 内 HERI m'(r)- (m, sm, mauu) 。 为 了 计算 mw。s， 会 为 每 一 对 配置 
MA (a,b) 学 习 相应 的 元 规则 ， 主 要 用 于 在 给 定 其 他 元 特征 m(1,) 的 情形 下 预测 配置 6 
在 新 任务 中 的 表现 能 否 超越 配置 0, 。 

除 此 之 外 ， 也 可 以 完全 基于 可 用 的 元 数据 已 学 习 一 组 联合 表征 ， 即 矿 PxGHy M' 。 
在 2.2.3 节 中 介绍 过 ， 可 以 采用 前 馈 神 经 网 络 mn 来 实现 这 一 任务 。 当 任务 共用 相同 的 输 
入 空间 时 〈 如 输入 都 是 具有 相同 分 辩 率 的 图 像 数据 ) ， 可 以 采用 深度 度量 学 习 来 学 习 元 
特征 的 表征 , 如 挛 生 神经 网 络 中 。 具 体 而 言 , 将 两 个 不 同 任务 的 数据 输入 两 个 挛 生 网 络 中 ， 
并 将 预测 性 能 和 观测 性 能 P, 之 间 的 差异 作为 错误 信号 对 网 络 进行 训练 。 由 于 两 个 网 络 
的 模型 参数 在 挛 生 网 络 中 是 绑 定 在 一 起 的 ， 所 以 相似 的 任务 会 被 映射 到 隐 元 特征 空间 的 
相同 区 域 中 。 而 学 习 出 来 的 表征 可 用 于 热 启动 贝 叶 斯 超 参 优化 中 和 神经 网 络 架构 搜索 四。 


R21 常用 元 特征 概览 


速度 、 可 扩展 性 中 p/n,log(n),log(7/ p) 
维度 灾难 m log(p)， 类 别 占 比 
复杂 度 、 不 平衡 度 号 最 少 和 最 多 类 的 比值 
插值 影响 m 缺失 值 百分比 
异常 值 数 量 o 数据 噪声 nn oln 
偏 度 E(X n y 特征 正 态 性 99 min, max, 4,6, d; . q3 
ey 
- 4 
峰 度 EA). 特征 正 态 性 9" min, max, 4,6, d; . d; 
x 
相关 性 PX, 特征 相互 依赖 性 19 min, max, 4,6, p, 0581 
协 方 差 COVy x, 特征 相互 依赖 性 19 min, max, J,0, COV yy 


集中 度 Tre, 特征 相互 依赖 性 中 min, max, 4,0, T yy 


特 E a Ñ R B 
FRE sparsity( X) 离散 程度 e 


引力 gravity(X ) 类 内 分 散 程度 加 
BHA p th Pais, 特征 元 余 度 四 


ev 


Hy 


变异 系数 目标 值 变异 程度 058 


PCA p, k 第 一 个 主 成 分 的 方差 四 ye 


TA 


PCA 偏 度 第 一 个 主 成 分 的 偏 度 t PCA ite RE “a 


xo ernie 
H(C) RAVE d BE! 


log,n 


互信 息 MI(C.X) 特征 重要 性 0m min, max, | mmmxus | c 


H(C) 


等 效 数 本 征 维 数 中 
MI(C,X) 
es Le H(X)-MI(C.X) 数据 噪声 
MI(C,X) 
2 
费 雪 判别 (Ha-Ha) 类 a 、c 可 分 离 度 后 参阅 文献 [64] 
04-97 
ERER RAND Ai BBE 00 参阅 文献 [64] 
概念 差异 任务 复杂 度 nom 参阅 文献 [179，180] 
数据 一 致 性 数据 质量 "9 参阅 文献 [76] 
节点 数 、 叶 子 数 ia. 概念 复杂 度 ma 树 的 深度 
分 支 长 度 概念 复杂 度 上 31 min, max, 4,6 


每 个 特征 节点 数 M 特征 重要 性 mal min, max, 44,0 
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特 E R 理 


每 个 类 的 节点 数 类 的 复杂 度 v 


叶子 一 致 性 m 类 的 可 分 性 ue min, max, 4,6 


n 


信息 增益 特征 重要 性 0 min, max, 14,0, gini 


最 近邻 特征 点 P(Ayw-t;) BGR ss us 精 选 INN ms 


树 形 特征 点 P(6,,,.1) 数据 可 分 性 mS 决策 树 ， 随 机 树 
线性 特征 点 P(0,,.1) 线性 可 分 性 ms 线性 判别 


NB 特征 点 P(Ba.1j) 特征 独立 性 ms) 更 多 模型 参阅 文献 [14，88] 
iiri IL mmo | | 


Ex 从 上 到 下 依次 分 组 为 简单 、 统 计 、 信 息 论 、 复 杂 度 、 基 于 模型 和 特征 点 。 连 续 特征 三 和 目标 了 的 
PHEW uy. WEZH oy. HEN of 。 类 别 型 特征 并 和 类 别 C 的 类 别 值 为 五、 条 件 概率 为 mi 、 联 合 概 
率 为 万、 边缘 概率 为 n, = Y. A H(X)-- vlog; (T, ) 。 

4 i 


2.3.3 ”基于 相似 任务 热 启动 优化 过 程 


基于 相似 任务 有 潜力 的 配置 ， 元 特征 是 评估 任务 相似 性 和 初始 化 优化 过 程 的 一 种 非 
常 自然 的 方案 。 其 与 人 类 专家 获得 相关 任务 经 验 后 开始 手动 搜索 优质 模型 的 过 程 较为 
类 似 。 

首先 ， 在 搜索 空间 的 有 潜力 解 区 域 启动 遗传 搜索 算法 ， 将 显著 提高 收敛 到 优质 解 的 
搜索 速度 。 在 文献 [59] 中 ， 戈 麦 斯 等 首先 基于 向 量 m(t,) 和 向 量 m (he) 的 五 距离 获得 
与 任务 few 最 为 接近 的 个 先前 任务 1; ， 随 后 基于 获取 的 个 先前 任务 i 来 初始 化 任务 配 
置 。 其 中 ， 每 个 m(t ) 包含 17 个 简单 、 统 计 的 元 特征 。 对 于 个 任务 t 中 的 每 一 个 ， 分 
别 取 其 最 好 的 配置 在 任务 hev 进行 评估 , 并 用 该 配置 来 初始 化 遗传 搜索 算法 (粒子 群 优化 》 
和 禁忌 搜 索 算法 。 在 文献 [129] 中 ， 雷 夫 等 采用 了 类 似 的 方案 。 具 体 而 言 ， 在 算法 中 ， 
他 们 使 用 了 15 个 简单 、 统 计 和 特征 点 元 特征 ， 并 采用 前 向 选择 技术 以 找 出 最 为 有 用 的 
元 特征 及 热 启动 一 种 能 改进 高 斯 变异 操作 的 标准 遗传 算法 (GAlib)。 此外, 主动 测试 ( 详 
情 请 参阅 2.2.3 节 ) 的 变 体 〈 即 使 用 元 特征 ) 也 被 尝试 过 ， 不 过 表现 上 比 基 于 相对 特征 
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点 的 方案 差 。 

基于 模型 的 优化 方法 也 会 极 大 地 得 益 于 有 潜力 配置 的 初始 集合 。 在 文献 [9] 中 ， 
SCoT 训练 了 一 个 能 够 预测 任务 4 中 o 排序 的 代理 排序 模型 ，f :MxO 下 R。 其 中 ，M 
含有 4 个 元 特征 3 个 简单 元 特征 和 1 个 基于 PCA 的 元 特征 ) 。 实 际 训练 中 会 使 用 所 有 
的 排序 来 训练 代理 模型 包括 在 任务 4 中 的 4 排序。 之 所 以 使 用 排序 来 训练 代理 模型 ， 
是 为 了 避免 不 同 任务 上 实际 评估 值 之 间 的 巨大 尺度 差异 。 为 了 进行 贝 叶 斯 优化 ， 高 斯 过 
程 回归 模型 会 将 排序 转化 成 概率 ， 并 且 会 将 每 一 步 结束 之 后 的 新 评估 结果 on PREK 
训练 代理 模型 。 

在 文献 148] 中 ， 希 林 等 采用 改进 的 多 层 感知 机 作为 代理 模型 ， 形 式 为 s (0. m((). 
b(t) =P, HH, m(t,) 表示 元 特征 ，5(/ ) 为 一 个 j 维 的 二 元 指示 向 量 ，1 表示 元 实例 
KEES 0 的 含义 则 相反 。 该 多 层 感知 机 在 第 一 层 中 会 使 用 一 个 基于 因子 分 解 机 na 
的 改进 激活 函数 ， 旨 在 学 习 出 能 够 建 模 任务 相似 性 的 任务 隐 含 表征 。 由 于 多 层 感知 机 无 
法 表达 不 确定 性 ， 所 以 会 训练 一 个 包含 100 个 多 层 感知 机 的 集成 模型 ， 以 获得 预测 均值 
和 对 方差 进行 模拟 。 

通常 而 言 ， 在 所 有 之 前 的 元 数据 上 所 训练 出 的 单个 代理 模型 的 可 扩展 性 会 较 差 。 在 
文献 [190] 中 ， 约 加 塔 马 和 曼 恩 同样 建立 了 一 个 贝 叶 斯 代理 模型 。 所 不 同 的 是 ， 训 练 时 
只 使 用 了 与 任务 Au 相似 的 先前 任务 。 其 中 ， 任 务 之 间 的 相似 性 主要 基于 只 含有 3 个 简 
单元 特征 的 任务 向 量 之 间 的 欧 几 里 得 距离 。 另 外 ， 忆 , 值 会 被 标准 化 ， 以 克服 不 同 任务 
六 中 已, 尺度 不 同 的 问题 。 该 代理 模型 会 在 所 有 实例 上 学 习 一 个 具有 特定 核 组 合 的 高 斯 
过 程 。 

在 文献 [48] 中 ， 费 雷 等 提出 了 一 种 能 够 热 启 动 贝 叶 斯 优化 的 更 简单 、 更 具 可 扩展 性 
的 方案 。 该 方案 采用 了 类 似 文献 [59] 中 的 方法 对 先前 任务 + 进行 排序 , 使 用 了 46 个 简单、 
统计 和 特征 点 元 特征 〈 包 括 瓦 (C) ) ， 随 后 使 用 4 个 最 为 相似 任务 中 的 1 个 最 佳 配置 来 
热 启动 代理 模型 。 相 较 于 之 前 的 研究 工作 ， 该 方案 搜索 的 超 参数 量 会 更 多 ， 包 括 预 处 理 
的 步 又。 后 续 的 研究 工作 也 使 用 了 文献 [48] 所 提出 的 热 启动 方案 ， 此 部 分 内 容 会 在 第 6 
章 详细 介绍 。 

最 后 ， 在 实际 工作 中 ， 也 可 以 使 用 协同 过 滤 技术 来 推荐 有 潜力 的 超 参 配置 9, K 
似 的 ， 首 先 可 基于 任务 《类 比 于 用 户 ) 为 配置 & (类 比 于 商品 ) 提供 的 评分 ,得 到 
一 个 评分 矩阵 ， 随 后 采用 矩阵 分 解 技术 来 预测 未 知 的 已 , 值 ， 进 而 为 每 个 任务 推荐 最 好 
的 超 参 配 置 。 不 过 在 这 里 ， 协 同 过 滤 技术 会 面临 冷 启动 带 来 的 一 个 重要 挑战 ， 因 为 矩阵 
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分 解 技术 需要 在 任务 kw 上 也 有 一 定数 量 的 评估 值 。 为 解决 此 挑战 ， 在 文献 [189] 中 ， 杨 等 
通过 采用 D- 最 优 实验 设计 采样 出 评估 值 ,的 初始 集合 ， 并 且 对 超 参 配 置 的 性 能 和 时 间 都 
进行 了 预测 ， 以 同时 确保 推荐 出 的 初始 配置 集合 的 精度 和 运行 速度 。 在 文献 [102，103] 中 ， 
米 思 尔 和 塞 巴 格 通 过 采用 元 特征 的 方式 来 解决 冷 启动 问题 。 在 文献 [54] 中 ， 弗 西 等 同样 
使 用 了 元 特征 ， 并 且 遵从 与 文献 [46] 相同 的 流程 ， 同 时 使 用 了 能 够 支持 贝 叶 斯 优化 的 概 
率 和 矩阵 分 解 模 型 ， 以 进一步 优化 它们 的 管道 配置 9 。 该 方法 能 够 为 任务 和 配置 生成 有 价 
值 的 隐 向 量 ， 可 以 使 得 贝 叶 斯 优化 的 运行 更 加 有 效 。 


2.8.4 元 模型 


可 以 建立 一 个 能 够 学 习 任 务 元 特征 和 特定 配置 效用 之 间 关 联 的 元 模型 工 ， 从 而 可 以 
在 给 定 新 任务 few 元 特征 M 的 前 提 下 推荐 最 为 有 用 的 配置 9 。 目 前 ， 已 存在 大 量 的 前 
期 工作 (22 56. 87. 90 致力 于 为 算法 选择 Ue 19. 70, 115) 和 超 参 推荐 M 79. 108, 158) 建立 元 模型 。 
实验 表明 ， 提 升 树 和 袋 装 树 通常 能 够 产生 最 好 的 预测 ， 虽 然 其 在 很 大 程度 上 依赖 于 所 使 
用 元 特征 的 准确 性 > 751, 


1. 排序 
元 模型 可 以 生成 前 天 个 最 具 潜 力 的 配置 排序 。 其 中 一 种 实现 方法 是 建立 一 个 能 够 预 
测 任务 相似 性 的 上 近邻 元 模型 ， 随 后 对 这 些 相似 任务 上 的 最 佳 配置 进行 排序 1, ux 


方法 类 似 于 2.3.3 节 所 讨论 的 工作 ， 但 与 后 续 的 优化 方法 无 关 。 在 实际 应 用 中 ， 专 门 用 
于 排序 的 元 模型 〈 如 预测 聚 类 树 ur 和 标签 排序 树 吧 ) 的 效果 也 较为 显著 。 近 似 排序 树 
森林 CART Forests) (59 是 多 个 快速 排序 树 的 集成 且 已 被 证 明 非 常 有 效 。 近 似 排序 树 森 
林 具 有 “内 置 的 ”元 特征 筛选 ， 使 得 即使 可 用 的 先前 任务 很 少时 其 也 能 够 很 好 地 工作 。 
除 此 之 外 ， 近 似 排序 树 森 林 的 集成 过 程 会 使 得 模型 更 加 健壮 。 在 文献 [116] 中 ， 自 动 装 
袋 法 采用 基于 XGBoost 的 排序 算法 对 装 袋 工作 流 (包括 4 个 不 同 的 装 袋 超 参 ) 进行 排序 ， 
并 在 140 个 OpenML 数据 集 和 146 个 元 特征 上 对 自动 装 袋 法 进行 了 训练 。 在 文献 [93] 中 ， 
洛 雷 纳 等 使 用 大 近邻 元 模型 和 一 组 新 的 基于 数据 复杂 性 的 元 特征 为 回归 问题 推荐 SVM 
超 参 配置 。 


2. 性 能 预测 
在 给 定 元 特征 的 前 提 下 ， 元 模型 可 以 直接 预测 特定 任务 中 某 个 配置 的 性 能 ， 如 准确 
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度 或 训练 时 长 ， 进 而 可 以 在 任意 优化 过 程 中 评估 某 个 配置 是 否 有 必要 参与 运算 。 早 期 的 
研究 工作 主要 采用 线性 回归 或 基于 规则 的 回归 器 来 预测 一 组 离散 配置 的 性 能 ， 然 后 进行 
相应 的 排序 U^ 7, fEXCHA [61] 中 ， 格 拉 等 为 每 一 个 分 类 算法 都 训练 了 相应 的 SVM 元 回 
归 器 ， 进 而 能 够 在 给 定 元 特征 的 新 任务 few 中 预测 默认 设置 下 的 分 类 算法 的 准确 度 。 在 
文献 [130] 中 ， 雷 夫 等 在 更 多 的 元 数据 中 训练 一 个 类 似 的 元 回归 器 ， 以 预测 其 优化 的 性 
能 。 而 在 文献 [32] 中 ， 戴 维 斯 等 采用 了 基于 多 层 感 知 机 的 元 学 习 器 来 预测 特定 算法 配置 
的 性 能 。 

除了 预测 性 能 之 外 ， 还 可 以 训练 一 个 直接 预测 算法 训练 / 预测 时 间 的 元 回归 器 ， 如 
训练 基于 元 特征 的 SVM 回归 器 5， 其 自身 通过 遗传 算法 来 进行 调节 。 在 文献 [189] 中 ， 
杨 等 使 用 只 基于 实例 和 特征 数量 的 多 项 式 回归 来 预测 配置 的 运行 时 间 。 另 外 ， 赫 特等 的 
提供 了 一 篇 关于 预测 不 同 领域 算法 运行 时 间 的 总 结 性 论文 。 

大 多 数 元 模型 都 能 够 生成 有 潜力 的 配置 ， 但 是 并 不 会 针对 新 任务 few 本 身 来 准确 地 
调整 这 些 配置 。 相 反 ， 预 测 值 可 用 于 热 启动 或 指导 其 他 优化 技术 ， 进 而 能 够 支持 元 模型 
和 优化 技术 的 任意 组 合 。 实 际 上 ，2.3.3 节 所 讨论 的 工作 都 可 以 被 视 为 利用 基于 距离 的 元 
模型 来 热 启动 贝 叶 斯 优化 e 乌 或 进化 算法 9' ! 玉 。 原 则 上 ， 这 里 也 可 以 使 用 其 他 类 型 
的 元 模型 。 

除了 学 习 任 务 元 特征 和 配置 性 能 之 间 的 关系 之 外 ， 还 可 以 构建 一 个 能 够 预测 特定 任 
务 上 配置 性 能 的 代理 模型 加。 随后 ， 继 续 学 习 如 何 结合 这 些 单个 任务 的 预测 值 以 热 启动 
或 指导 新 任务 fw 上 的 优化 技术 MS ne 到 ,191， 正 如 在 2.2.3 节 所 讨论 的 。 虽 然 元 特征 也 
可 用 于 结合 单个 任务 的 预测 值 〈 基 于 任务 相似 性 ) ， 但 结合 了 新 观测 值 ,的 优化 过 程 
会 更 加 有 效 ， 因 为 每 一 个 新 的 观测 值 可 以 改善 任务 相似 性 的 评估 结果 UT 1n, 


2.3.5 管道 合成 


当 创建 完整 的 机 器 学 习 管 道 时 58， 配置 项 的 数量 会 急剧 增加 ， 使 得 利用 先前 的 经 
验 变 得 更 加 重要 。 在 实际 工作 中 ， 可 以 采用 一 个 完全 由 一 组 超 参 所 描述 的 固定 管道 结构 
来 控制 搜索 空间 。 然 后 ， 使 用 相似 任务 上 最 具 潜 力 的 管道 热 启 动 贝 叶 斯 优化 Ue 90, 

另外 一 些 方法 可 以 针对 特定 的 管道 步骤 提供 建议 ， 可 用 在 更 大 的 管道 构造 方法 中 ， 
如 规划 算法 5 76 105, 190 或 进化 算法 MO 162, fr YER [105] 中 ， 阮 等 采用 集束 搜索 方法 来 
构建 新 的 管道 ， 该 搜索 方法 专注 于 基于 元 学 习 器 所 推荐 的 组 件 ， 其 自身 也 会 在 先前 成 功 
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的 管道 示例 上 进行 训练 。 在 文献 [18] 中 ， 比 拉 尔 等 为 给 定 的 分 类 算法 预测 应 当 推荐 的 预 
处 理 技术 。 具 体 而 言 ， 他 们 会 为 每 一 个 目标 分 类 算法 都 建立 一 个 元 模型 ， 用 于 在 给 定 新 
任务 i, 元 特征 的 前 提 下 预测 管道 应 当 包 含 的 预 处 理 技术 。 类 似 地 ， 在 文献 [152] F, 
合 恩 菲尔德 等 建立 了 能 够 预测 预 处 理 算法 何 时 会 改进 特定 分 类 器 性 能 或 运行 时 间 的 元 
模型 。 

AlphaD3M E?! 使 用 了 自我 对 局 的 强化 学 习 方法 ， 其 中 当前 状态 由 当前 管道 来 表示 ， 
动作 包含 管道 组 件 的 增加 、 删 除 和 蔡 换 。 模 型 AlphaD3M 采用 蒙特 卡 洛 树 搜索 (MCTS) 
生成 管道 ， 并 对 生成 的 管道 进行 评估 ， 以 训练 出 一 个 能 够 预测 管道 性 能 的 递归 神经 网 络 
(LSTM) ， 进 而 能 够 依次 产生 用 于 下 一 轮 MCTS 的 动作 概率 。 另 外 ， 状 态 描述 也 会 含 
有 当前 任务 的 元 特征 ， 以 支持 神经 网 络 的 跨 任 务 学 习 。 而 在 文献 [123] 中 ，Mosaic 同样 
采用 MCTS 方法 生成 管道 。 不 过 所 不 同 的 是 ，Mosaic 是 基于 Bandits 方法 来 选择 有 潜力 
的 管道 的 。 


2.3.6 Wiss 


为 了 在 时 间 有 限 的 情况 下 降低 待 优 化 配置 参数 的 数量 和 节省 宝贵 的 优化 时 间 ， 有 一 
类 元 模型 被 提出 。 该 类 元 模型 主要 用 于 在 给 定 当前 任务 元 特征 的 前 提 下 预测 是 否 有 必要 
对 一 个 给 定 的 算法 进行 调 优 "3 引 ， 同 时 也 会 预测 在 投入 特定 时 间 的 情况 下 ， 调 优 特定 算 
法 能 够 获得 多 大 的 预期 改进 (和 9。 而 专注 于 特定 学 习 算 法 的 研究 所 生成 的 元 模型 ， 能 够 
预测 什么 时 候 需 要 对 SVMs 进行 调 优 外、 在 给 定 任务 的 前 提 下 哪些 对 SVMs 而 言 是 好 
的 默认 超 参 ( 包 括 可 解释 的 元 模型 》®7 及 如 何 调 优 决策 树 09. 


2.4 ”先前 模型 中 学 习 


最 后 一 类 可 以 学 习 的 元 数据 是 先前 机 器 学 习 模型 它们 自身 ， 即 模型 的 结构 和 已 学 
习 出 的 模型 参数 。 简 而 言 之 ， 需 要 训练 出 一 个 元 学 习 器 工 。 该 元 学 习 器 能 够 在 给 定 相 
似 任务 te 了 T 的 前 提 下 学 习 如 何 为 新 任务 few 训练 一 个 〈 基 ) 学 习 器 1 及 其 对 应 的 优 
化 模型 1 eL。 其 中 ，L 表 示 所 有 可 能 模型 的 空间 。 而 学 习 器 1; 通常 由 它 的 模型 参数 
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W ={w,},k=1,2,-,K Al (GO ME 6 OREM. 


2.4.1 EFJ 


在 迁移 学 习 mo 中 ， 首 先 获取 训练 于 一 个 或 若干 个 源 任务 i 的 模型 ， 随 后 将 这 些 模型 
作为 建立 相似 目标 任务 few 模型 的 起 始点 。 这 可 以 通过 强制 目标 模型 在 结构 或 其 他 方面 类 
似 于 源 模型 来 实现 。 该 方法 是 普遍 适用 的 ， 目 前 而 言 迁移 学 习 在 核 方法 UL SRT 
斯 模型 & ue 1 多、 贝 叶 斯 网 络 uon. RK ns 和 强化 学 习 06 名 中 都 已 得 到 应 用 。 尤 其 是 
神经 网 络 ， 非 常 适合 采用 迁移 学 习 帆 ' oe ! 呈 。 因 为 在 神经 网 络 上 ， 不 管 是 源 模型 的 结 
构 还 是 源 模型 的 模型 参数 都 可 以 很 好 地 作为 目标 模型 的 初始 化 值 ， 进 而 产生 一 个 预 训练 
的 目标 模型 。 随 后 ， 基 于 新 任务 few 的 可 用 训练 数据 对 目标 模型 做 进一步 的 微调 。 需 要 
注意 的 是 ， 部 分 情况 下 ， 在 迁移 源 神经 网 络 之 前 可 能 需要 对 其 做 一 些 修改 1 中。 而 本 节 
的 剩余 部 分 将 会 对 神经 网 络 进行 集中 讨论 。 

特别 地 ， 像 ImageNet ral 之 类 的 大 型 图 像 数 据 集 已 经 被 证 明 : 所 生成 的 预 训练 模型 
可 以 很 好 地 迁移 到 其 他 任务 55。 不 过 ， 有 研究 也 表明 ， 当 目标 任务 不 够 相似 时 ， 该 
方法 不 能 很 好 地 发 挥 作用 mu。 与 其 期 待 一 个 预 训练 的 模型 恰好 能 够 很 好 地 迁移 到 新 任 
务 上 ,不 如 目的 性 地 在 元 学 习 器 中 引入 一 个 归纳 偏 置 〈 来 自 于 多 个 相似 任务 上 的 学 习 ) ， 
以 支持 它们 更 快 地 学 习 新 任务 。 下 文 会 进行 具体 讨论 。 


2.4.2 ”针对 神经 网 络 的 元 学 习 


一 个 早期 的 元 学 习 方法 是 创建 能 够 修改 其 自身 权重 的 递归 神经 网 络 (RNNs) 9 1501, 
在 训练 过 程 中 ， 它 们 将 其 自身 的 权重 作为 额外 的 输入 数据 ， 并 观察 其 自身 的 误差 ， 以 针 
对 当前 新 任务 来 调整 这 些 权重 。 权 重 的 更 新 定义 成 一 个 参数 式 ， 该 参数 式 是 端 到 端 可 微 
的 。 另 外 ， 该 参数 式 能 够 基于 梯度 下 降 联 合 优化 网 络 和 训练 算法 ， 不 过 训练 难度 较 大 。 
后 续 的 工作 采用 跨 任务 的 强化 学 习 方 法 ， 将 搜索 策略 n5 或 梯度 下 降 的 学 习 率 0 适 配 到 

直观 来 说 ， 反 向 传播 不 像 是 人 类 大 脑 的 一 种 学 习 机 制 。 受 此 启发 ， 本 吉 奥 等 A R 
用 一 种 简单 的 受 生物 启发 的 参数 规则 (或 进化 规则 071). 取代 反 向 传播 技术 ， 并 用 取代 后 
的 规则 来 更 新 突 触 的 权重 。 随 后 ， 在 多 个 输入 任务 中 ， 采 用 梯度 下 降 或 进化 算法 对 参数 
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进行 优化 。 在 文献 [142] 中 , 鲁 纳 松 和 琼 森 采 用 一 个 单 层 的 神经 网 络 来 蔡 代 这 些 参数 规则 。 
在 文献 [146] 中 ， 桑 托 罗 等 使 用 一 个 记忆 增强 的 神经 网 络 来 学 习 如 何 存储 和 检索 先前 分 
类 任务 的 “记忆 ”。 而 在 文献 [65] 中 ， 霍 克 赖 特等 使 用 基于 LSTMs!9 的 元 学 习 器 来 训 
练 多 层 感知 机 。 

除 此 之 外 ， 部 分 研究 工作 对 优化 器 进行 了 蔡 换 。 举 例 而 言 ， 文 献 [6] 将 优化 器 (如 
随机 梯度 下 降 ) 替换 成 训练 于 先前 任务 的 LSTM。 元 学 习 器 〈 优 化 器 ) 的 误差 定义 成 基 
学 习 器 的 误差 之 和 ， 并 采用 梯度 下 降 的 方法 进行 优化 。 在 每 一 步 中 ， 元 学 习 器 根据 上 一 
步 学 习 模 型 的 权重 {w} 和 当前 的 性 能 梯度 来 选择 估计 的 更 新 权重 ， 以 最 大 程度 地 降低 基 
学 习 器 的 损失 。 后 续 工 作对 该 方法 进行 了 泛 化 路， 主要 是 采用 梯度 下 降 方法 为 合成 函数 
训练 了 一 个 优化 器 ， 其 能 够 在 基 学 习 器 无 法 访问 梯度 的 情况 下 依然 支持 元 学 习 器 对 基 学 
习 器 进行 优化 。 

另外 ， 李 和 马里 克 @ 从 强化 学 习 的 角度 提出 了 一 种 学 习 优 化 算法 的 框架 。 它 将 任 
何 特定 的 优化 算法 视 为 一 个 策略 ， 然 后 通过 有 指导 的 策略 搜索 方法 对 该 策略 进行 学 习 。 
后 续 工 作 中 中 展示 了 如 何 利用 该 方法 为 〈 浅 层 ) 神经 网 络 学 习 优 化 算法 。 

神经 架构 搜索 领域 含有 很 多 其 他 方法 ， 这 些 方法 能 够 为 特定 的 任务 建立 相应 的 神经 
网 络 性 能 模型 , 如 使 用 贝 叶 斯 优化 或 强化 学 习 方法 (第 3 章 会 对 此 进行 深入 讨论 ) 。 然 而 ， 
其 中 的 大 多 数 方法 还 难以 泛 化 到 跨 任务 中 运行 ， 因 此 这 里 不 再 进行 讨论 。 


2.4.3 小 样本 学 习 


元 学 习 领 域 存在 一 个 特定 的 挑战 ， 即 使 用 较 少 的 训练 实例 训练 出 一 个 准确 的 深度 学 
习 模 型 。 因 为 此 时 虽然 给 出 了 相似 任务 的 先前 经 验 ， 但 是 这 些 先前 任务 具备 大 量 的 训练 
实例 ， 导 致 学 习 出 的 先前 经 验 难 以 直接 应 用 到 较 少 的 训练 实例 场景 中 。 这 就 是 所 谓 的 
“小 样本 学 习 ”。 然 而 人 类 与 生 俱 来 就 具备 这 种 小 样本 学 习 的 能 力 ， 所 以 希望 构建 出 的 
机 器 学 习 智能 体 也 能 够 具备 这 种 能 力 四 。 小 样本 学 习 里 面 比较 有 代表 性 的 示例 是 “天 -shot 
N-way” 分 类 问题 : 在 特定 类 《如 物体 ) 给 定 较 多 训练 实例 〈 如 图 像 ) WHET, BA 
于 学 习 一 个 能 够 识别 出 入 个 新 类 每 个 新 类 只 有 天 个 样本 〉 的 分 类 器 Lew 。 

利用 之 前 的 经 验 ， 可 以 学 习 所 有 任务 共同 的 特征 表示 、 用 一 个 更 好 的 模型 参数 初始 
化 值 Woon EUR 80 Lu 的 训练 及 获得 一 个 能 够 有 助 于 引导 模型 参数 优化 的 归纳 偏 置 ， 使 得 
TL, 可 以 比 其 他 方法 得 到 更 快 的 训练 。 
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早期 关于 小 样本 学 习 的 工作 主要 基于 手工 设计 的 特征 n'4, 4 有 ,而 通过 使 用 元 学 习 ， 
希望 能 够 以 一 种 端 到 端的 方式 为 所 有 任务 学 习 一 个 共同 的 特征 表示 。 

在 文献 [181] 中 ， 温 亚 尔 斯 等 人 指出 ， 要 从 非常 少 的 数据 中 学 习 ， 应 该 尽 可 能 地 考 
虑 非 参数 化 模型 〈 如 大 近邻 方法 ) 。 因 为 非 参 数 化 模型 主要 使 用 记忆 组 件 ， 而 非 对 较 多 
的 模型 参数 进行 学 习 。 它 们 的 元 学 习 器 是 一 个 匹配 网 络 ， 该 匹配 网 络 主要 采用 了 神经 网 
络 中 记忆 组 件 的 理念 。 具 体 而 言 ， 该 元 学 习 器 首先 会 基于 标记 示例 学 习 出 一 个 共同 的 表 
征 ， 然 后 基于 余弦 相似 度 将 每 个 新 的 测试 实例 与 已 记忆 的 示例 进行 匹配 。 另 外 ， 该 网 络 
会 在 每 个 特定 任务 只 有 几 个 样本 的 子 集 Cminibatches) 上 进行 训练 。 

在 文献 [157] 中 ， 斯 内 尔 等 提出 了 原型 网 络 ， 该 网 络 首先 将 示例 映射 到 一 个 p 维 的 
向 量 空间 ， 从 而 使 得 给 定 输出 类 的 示例 可 以 紧密 联系 在 一 起 ， 随 后 为 每 一 个 类 计算 一 个 
原型 〈 即 均值 向 量 ) 。 而 新 的 测试 实例 会 被 映射 到 相同 的 向 量 空间 ， 并 采用 距离 度量 为 
所 有 可 能 的 类 创建 一 个 softmax 函数 。 另 外 ， 在 文献 [131] 中 ， 任 等 将 该 方法 扩展 到 半 
监督 学 习 。 

在 文献 [126] 中 ， 拉 维和 拉 罗 歇 尔 使 用 基于 LSTM 的 元 学 习 器 为 训练 神经 网 络 的 学 
习 器 学 习 更 新 规则 。 对 于 每 个 新 的 示例 ， 学 习 器 都 会 将 当前 梯度 和 损失 值 返回 给 LSTM 
元 学 习 器 ， 随 后 元 学 习 器 会 对 学 习 器 的 模型 参数 {w} 进行 更 新 。 需 要 注意 的 是 ， 元 学 习 
器 会 在 所 有 的 先前 任务 上 进行 训练 。 

与 前 面 方法 不 同 的 是 ,与 模型 无 关 的 元 学 习 方法 (MAML)1 不 对 更 新 规则 进行 学 习 ， 
而 是 直接 学 习 模 型 参数 的 初始 化 值 不, ， 因 为 其 能 够 更 好 地 将 相似 任务 一 般 化 。 具 体 而 
言 ，MAML 会 从 随机 的 {wi} 开始 训练 ， 和 迭代 地 选择 一 批 先 前 任务 ， 并 为 每 一 个 任务 在 
天 个 示例 上 训练 相应 的 学 习 器 以 计算 测试 集 上 的 梯度 和 损失 。 随 后 ， 它 会 从 更 容易 更 新 
权重 的 方向 反 向 传播 元 梯度 以 更 为 有 效 地 更 新 权重 (w). MEZ, FERZJE, ME 
{wi} 可 以 作为 一 个 更 优 的 W,, ， 能 够 更 好 地 作为 其 他 任务 调 优 的 起 始 权 值 。 在 文献 [52] 
中 ， 费 恩 和 莱 文 提 到 ， 当 使 用 一 个 足够 深 的 全 连接 ReLU 网 络 和 特定 的 损失 时 , MAML 
能 够 近似 任何 学 习 算 法 。 与 此 同时 ， 他 们 还 总 结 到 ，MAML 的 初始 化 值 在 小 样本 的 过 
拟 合 问题 上 更 富有 弹性 ， 并 且 比 基 于 LSTM 的 元 学 习 方法 的 泛 化 范围 更 广 。 

REPTILE"! 是 MAML 算法 的 近似 ， 它 对 给 定 任务 上 的 天 次 迭代 执行 随机 梯度 下 降 
操作 ， 然 后 将 初始 化 权重 逐渐 向 着 天 次 迭代 获得 的 权重 的 方向 移动 。 直 觉 而 言 ， 每 个 任 
务 都 可 能 有 不 止 一 组 的 最 优 权 重 (wr) ， 而 目标 就 是 为 每 个 任务 找到 至 少 接近 一 组 最 优 权 
E fw } 的 初始 化 权重 Wy o 
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最 后 ， 我 们 也 可 以 基于 黑 盒 神经 网 络 得 到 一 个 元 学 习 器 。 在 文献 [145] F, REF 
等 提出 了 基于 记忆 增强 神经 网 络 “MANNs) 的 元 学 习 器 ，MANNs 会 训练 一 个 具有 记忆 
增强 能 力 的 神经 图 灵机 (NTM) (9， 使 得 该 元 学 习 器 能 够 记忆 之 前 任务 的 信息 ， 并 随后 
利用 该 信息 去 学 习 一 个 学 习 器 1, © SCHR [101] 所 提出 的 SNAIL 模型 ， 是 一 种 由 时 序 卷 
积 层 和 关联 注意 力 层 交叉 所 组 成 的 通用 元 学 习 器 架构 。 具 体 而 言 ， 卷 积 层 为 训练 实例 (图 
像 ) 学 习 公共 的 特征 向 量 ， 以 更 好 地 从 过 去 的 经 验 中 收集 信息 ， 而 关联 注意 力 层 主要 从 
收集 的 经 验 中 学 习 挑选 出 能 够 更 好 地 推广 到 新 任务 的 那 部 分 信息 。 

总 结 而 言 ， 深 度 学 习 和 元 学 习 的 交叉 被 证 明 是 创新 与 新 思想 的 沃土 ， 希 望 随 着 时 间 
的 推移 ， 该 领域 变 得 越 来 越 重 要 。 


2.4.4 不止 于 监督 学 习 


元 学 习 并 不 会 局 限 在 有 监督 或 半 监 督 的 任务 上 ， 而 是 已 经 成 功 应 用 到 各 种 类 型 的 任 
务 ， 如 强化 学 习 、 主 动 学 习 、 密 度 估 计 和 项 目 推荐 等 。 基 学 习 器 可 以 是 无 监督 的 ， 但 元 
学 习 器 是 有 监督 的 。 不 过 ， 其 他 的 组 合 方式 也 是 有 可 能 的 。 

在 文献 [39] 中 ， 段 等 提出 了 一 种 端 到 端的 强化 学 习 (RL) 方法 ， 该 方法 由 一 个 通 
用 的 慢 速 元 强化 学 习 算 法 所 指导 的 任务 相关 的 快速 强化 学 习 算 法 组 成 。 其 中 ， 任 务 是 相 
互 关联 的 马尔 科 夫 决策 过 程 。 元 强化 学 习 方 法 被 建 模 成 能 够 接收 观测 值 、 行 动 、 奖 励 和 
停止 标志 的 RNN。 其 中 ，RNN 网 络 的 激活 函数 会 存储 快速 RL 学 习 器 的 状态 ， 而 RNN 
的 权重 则 是 通过 观察 跨 任 务 上 快速 学 习 器 的 性 能 学 习 而 得 的 。 

与 此 同时 ， 王 等 na 也 提出 了 采用 深度 强化 学 习 方法 来 训练 RNN 网 络 ， 其 主要 是 
接收 上 一 间隔 的 行动 和 奖励 来 学 习 特 定 任务 的 底层 RL 算法 。 与 使 用 相对 而 言 非 结构 化 
的 任务 〈 如 随机 马尔 科 夫 决策 过 程 ) 不 同 ， 王 等 主要 关注 于 元 强化 学 习 算法 能 够 利用 固 
有 任务 结构 的 结构 化 任务 分 布 。 

在 文献 [112] 中 ， 潘 等 为 主动 学 习 CALO 提出 了 一 种 元 学 习 方 法 。 具 体 而 言 ， 基 学 
习 器 可 以 是 任何 一 种 二 分 类 器 。 元 学 习 器 是 一 个 深度 强化 学 习 网 络 ， 其 含有 一 个 能 够 学 
习 跨 任务 AL 问题 表征 的 深度 神经 网 络 和 一 个 能 够 学 习 最 佳 策略 的 策略 网 络 。 其 中 ， 策 
略 参数 化 为 网 络 的 权重 。 另 外 ， 元 学 习 器 会 接收 当前 状态 〈 即 未 标记 的 点 集 和 基 分 类 器 
状态 ) 和 奖励 ( 即 基 分 类 器 的 性 能 ) ， 并 发 出 一 个 查询 概率 〈 即 未 标记 集中 下 一 个 待 查 
询 的 点 ) 。 
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在 文献 [127] 中 ， 里 德 等 为 密度 估计 (DE) 设计 了 一 种 小 样本 学 习 方法 。 目 标 是 从 
一 个 特定 概念 下 《如 手写 字母 ) 的 少量 图 像 中 学 习 出 一 个 概率 分 布 ， 该 分 布 可 用 于 生成 
该 概念 的 图 像 或 计算 某 张 图 片 具有 该 概念 的 概率 。 里 德 等 主要 采用 了 自 回归 图 像 模型 ， 
该 模型 能 够 将 联合 分 布 分 解 为 单个 的 像素 因子 。 通 常 而 言 ， 这 些 会 条 件 相关 于 目标 概念 
的 (众多 ) 示例 。 而 基于 MAML 的 小 样本 学 习 器 ， 会 在 多 个 其 他 《相似 ) 概念 的 示例 
上 进行 训练 。 

最 后 ， 瓦 塔 克 等 US 解决 了 矩阵 分 解 的 冷 启 动 问题 。 他 们 提出 了 一 个 能 够 学 习 〈 基 ) 
神经 网 络 的 深度 神经 网 络 结 构 ， 而 基 神 经 网 络 的 偏 置 可 以 基于 任务 信息 进行 调整 。 不 过 
神经 网 络 推荐 器 的 结构 和 权重 需要 保持 固定 ， 元 学 习 器 会 基于 每 个 用 户 的 项 目 历史 来 学 
习 如 何 调整 偏 置 。 

所 有 这 些 近期 的 新 进展 清楚 表明 ， 从 元 学 习 的 角度 来 看 待 问题 并 为 手动 设计 的 基 学 
习 器 找到 可 蔡 代 的 新 的 数据 驱动 方法 是 富有 成 效 的 。 


25 总 结 


元 学 习 的 形式 非常 多 样 ， 而 且 能 够 结合 各 种 各 样 的 学 习 技术 。 每 次 我 们 在 尝试 学 习 
一 个 特定 任务 时 , 不 管 成 功 与 否 , 都 能 够 获得 用 于 学 习 新 任务 的 有 用 经 验 。 在 实际 任务 中 ， 
我 们 要 尽量 避免 完全 从 零 开 始 。 相 反 ， 我 们 应 该 系统 地 收集 “学 习 经 验 ”， 并 从 中 学 习 
以 构建 出 一 个 随 着 时 间 能 够 持续 改进 的 自动 机 器 学 习 系 统 ,进而 更 为 有 效 地 应 对 新 问题 、 
新 任务 。 我 们 所 遇 到 的 新 任务 越 多 、 越 相似 ， 我 们 所 能 够 利用 到 的 先前 经 验 就 会 越 多 ， 
进而 使 得 所 需 学 习 的 大 部 分 被 提前 完成 。 另 外 ， 计 算 系统 具有 近乎 无 限 存储 先前 学 习 经 
验 〈 形 式 化 为 元 数据 ) 的 能 力 ， 为 以 全 新 的 方式 使 用 这 些 经 验 提 供 了 广泛 的 机 会 ， 而 我 
们 才刚 刚 开 始 学 习 如 何 高 效 地 从 先前 经 验 中 进行 学 习 。 不 过 ， 这 是 一 个 非常 有 价值 的 目 
标 。 因 为 从 任何 任务 中 进行 学 习 所 赋予 我 们 的 能 力 将 远 远 超过 从 特定 任务 中 进行 学 习 。 


COBRE ARE BEER 费 勒 、 弗 兰 克 。 亨 特 、 拉 古 。 拉 和 詹 、 艾 琳 * 格 兰 特 、 
雨 果 。 拉 罗 切 勒 、 扬 。 范 。 莱 英和 简 。 王 对 手稿 提出 的 宝贵 建议 和 给 予 的 有 价值 反馈 。 


56 


自动 机 器 学 习 ( AutoML ) : 方法 、 系 统 与 挑战 


ul 


[2] 


I3] 
[4] 


[5] 


l6] 


Ui 


I8] 


[9] 


[10] 


Hu] 


[12] 


[13] 


[14] 


[15] 


[16] 


参考 文献 


Abdulrahman, S., Brazdil, P., van Rijn, J., Vanschoren, J.: Speeding up Algorithm Selection using 
Average Ranking and Active Testing by Introducing Runtime. Machine Learning 107, 79-108 (2018). 
Afif, LN.:Warm-Starting Deep Learning Model Construction using Meta-Learning. Master's thesis, 
TU Eindhoven (2018). 

Agresti, A.: Categorical Data Analysis. Wiley Interscience (2002). 

Ali, S., Smith-Miles, K.A.: Metalearning approach to automatic kernel selection for support vector 
machines. Neurocomputing 70(1), 173-186 (2006). 

Ali, S., Smith-Miles, K.A.: On learning algorithm selection for classification. Applied Soft Computing 
6(2), 119-138 (2006). 

Andrychowicz, M., Denil, M., Gomez, S., Hoffman, M.W., Pfau, D., Schaul, T., Shillingford, B., 
De Freitas, N.: Learning to learn by gradient descent by gradient descent. In: Advances in Neural 
Information Processing Systems. pp. 3981-3989 (2016). 

Arinze, B.: Selecting appropriate forecasting models using rule induction. Omega 22(6), 647-658 
(1994). 

Bakker, B., Heskes, T.: Task Clustering and Gating for Bayesian Multitask Learning. Journal of 
Machine Learning Research 4, 83-999 (2003). 

Bardenet, R., Brendel, M., Kégl, B., Sebag, M.: Collaborative hyperparameter tuning. In: Proceedings 
of ICML 2013. pp. 199-207 (2013). 

Bart, E., Ullman, S.: Cross-generalization: Learning novel classes from a single example by feature 
replacement. In: Proceedings of CVPR 2005. pp. 672-679 (2005). 

Baxter, J.: Learning Internal Representations. In: Advances in Neural Information Processing Systems, 
NeurIPS (1996). 

Bengio, S., Bengio, Y., Cloutier, J.: On the search for new learning rules for anns. Neural Processing 
Letters 2(4), 26-30 (1995). 

Bengio, Y.: Deep learning of representations for unsupervised and transfer learning. In: ICML 
Workshop on Unsupervised and Transfer Learning. pp. 17-36 (2012). 

Bensusan, H., Kalousis, A.: Estimating the predictive accuracy of a classifier. Lecture Notes in 
Computer Science 2167, 25-36 (2001). 

Bensusan, H., Giraud-Carrier, C.: Discovering task neighbourhoods through landmark learning 
performances. In: Proceedings of PKDD 2000. pp. 325-330 (2000). 

Bensusan, H., Giraud-Carrier, C., Kennedy, C.: A higher-order approach to meta-learning. In: 


Proceedings of ILP 2000. pp. 33-42 (2000). 


[17] 


[18] 


[19] 


[20] 


[21] 


[22] 


[23] 


[24] 


[25] 


[26] 


[27] 


[28] 


[29] 


[30] 


B1] 


[32] 


[33] 


第 2 章 元 学 习 57 


Bilalli, B., Abelló, A., Aluja-Banet, T.: On the predictive power of meta-features in OpenML. 
International Journal of Applied Mathematics and Computer Science 27(4), 697-712 (2017). 

Bilalli, B., Abelló, A., Aluja-Banet, T., Wrembel, R.: Intelligent assistance for data preprocessing. 
Computer Standards and Interfaces 57, 101—109 (2018). 

Bischl, B., Kerschke, P., Kotthoff, L., Lindauer, M., Malitsky, Y., Fréchette, A., Hoos, H., Hutter, F., 
Leyton-Brown, K., Tierney, K., Vanschoren, J.: ASLib: A benchmark library for algorithm selection. 
Artificial Intelligence 237, 41—58 (2016). 

Bishop, C.M.: Pattern recognition and machine learning. Springer (2006). 

Brazdil, P., Soares, C., da Costa, J.P.: Ranking learning algorithms: Using IBL and meta-learning on 
accuracy and time results. Machine Learning 50(3), 251-277 (2003). 

Brazdil, P., Giraud-Carrier, C., Soares, C., Vilalta, R.: Metalearning: Applications to Data Mining. 
Springer-Verlag Berlin Heidelberg (2009). 

Brazdil, P.B., Soares, C., Da Coasta, J.P.: Ranking learning algorithms: Using IBL and meta-learning 
on accuracy and time results. Machine Learning 50(3), 251-277 (2003). 

Caruana, R.: Learning many related tasks at the same time with backpropagation. Neural Information 
Processing Systems pp. 657-664 (1995). 

Caruana, R.: Multitask Learning. Machine Learning 28(1), 41-75 (1997). 

Castiello, C., Castellano, G., Fanelli, A.M.: Meta-data: Characterization of input features for meta- 
learning. In: 2nd International Conference on Modeling Decisions for Artificial Intelligence (MDAI). 
pp. 457-468 (2005). 

Chalmers, D.J.: The evolution of learning: An experiment in genetic connectionism. In: Connectionist 
Models, pp. 81-90. Elsevier (1991). 

Chen, Y., Hoffman, M.W., Colmenarejo, S.G., Denil, M., Lillicrap, T.P., Botvinick, M., de Freitas, N.: 
Learning to learn without gradient descent by gradient descent. In: Proceedings of ICML 2017, PMLR 
70, pp. 748-756 (2017). 

Cheng, W., Hühn, J., Hüllermeier, E.: Decision tree and instance-based learning for label ranking. In: 
Proceedings of ICML 2009. pp. 161-168 (2009). 

Cook, W.D., Kress, M., Seiford, L.W.: A general framework for distance-based consensus in ordinal 
ranking models. European Journal of Operational Research 96(2), 392-397 (1996). 

Daniel, C., Taylor, J., Nowozin, S.: Learning step size controllers for robust neural network training. 
In: Proceedings of AAAI 2016. pp. 1519-1525 (2016). 

Davis, C., Giraud-Carrier, C.: Annotative experts for hyperparameter selection. In: AutoML Workshop 
at ICML 2018 (2018). 

De Sa, A., Pinto, W., Oliveira, L.O., Pappa, G.: RECIPE: A grammar-based framework for 


automatically evolving classification pipelines. In: European Conference on Genetic Programming. pp. 


58 


[34] 


[35] 


[36] 


[87] 


[38] 


[39] 


140] 


[41] 


[42] 


[43] 


[44] 


[45] 


[46] 


[47] 


[48] 


自动 机 器 学 习 ( AutoML ) : 方法 、 系 统 与 挑战 


246-261 (2017). 

Demšar, J.: Statistical Comparisons of Classifiers over Multiple Data Sets. Journal of Machine 
Learning Research 7, 1-30 (2006). 

Dietterich, T.: Ensemble methods in machine learning. In: International workshop on multiple 
classifier systems. pp. 1-15 (2000). 

Dietterich, T., Busquets, D., Lopez de Mantaras, R., Sierra, C.: Action Refinement in Reinforcement 
Learning by Probability Smoothing. In: 19th International Conference on Machine Learning. pp. 107-114 
(2002). 

Donahue, J., Jia, Y., Vinyals, O., Hoffman, J., Zhang, N., Tzeng, E., Darrell, T.: DeCAF: A deep 
convolutional activation feature for generic visual recognition. In: Proceedings of ICML 2014. 
pp. 647-655 (2014). 

Drori, I., Krishnamurthy, Y., Rampin, R., de Paula Lourenco, R., Ono, J.P., Cho, K., Silva, C., Freire, J.: 
AlphaD3M: Machine learning pipeline synthesis. In: AutoML Workshop at ICML (2018). 

Duan, Y., Schulman, J., Chen, X., Bartlett, P.L., Sutskever, I., Abbeel, P.: RL2: Fast reinforcement 
learning via slow reinforcement learning. arXiv preprint arXiv:1611.02779 (2016). 

Eggensperger, K., Lindauer, M., Hoos, H., Hutter, F., Leyton-Brown, K.: Efficient Benchmarking of 
Algorithm Configuration Procedures via Model-Based Surrogates . Machine Learning 107, 15-41 
(2018). 

Evgeniou, T., Micchelli, C., Pontil, M.: Learning Multiple Tasks with Kernel Methods. Journal of 
Machine Learning Research 6, 615-637 (2005). 

Evgeniou, T., Pontil, M.: Regularized multi-task learning. In: Tenth Conference on Knowledge 
Discovery and Data Mining (2004). 

Fei-Fei, L.: Knowledge transfer in learning to recognize visual objects classes. In: International 
Conference on Development and Learning. Art. 51 (2006). 

Fei-Fei, L., Fergus, R., Perona, P.: One-shot learning of object categories. Pattern analysis and machine 
intelligence 28(4), 594-611 (2006). 

Feurer, M., Letham, B., Bakshy, E.: Scalable meta-learning for Bayesian optimization. arXiv 
1802.02219 (2018). 

Feurer, M., Klein, A., Eggensperger, K., Springenberg, J., Blum, M., Hutter, F.: Efficient and robust 
automated machine learning. In: Advances in Neural Information Processing Systems 28. pp. 2944-2952 
(2015). 

Feurer, M., Letham, B., Bakshy, E.: Scalable meta-learning for Bayesian optimization using ranking- 
weighted gaussian process ensembles. In: AutoML Workshop at ICML 2018 (2018). 

Feurer, M., Springenberg, J.T., Hutter, F.: Using meta-learning to initialize Bayesian optimization of 


hyperparameters. In: International Conference on Metalearning and Algorithm Selection. pp. 3-10 


[49] 


[50] 


[51] 


[52] 


[53] 


[54] 


[55] 


[56] 


[57] 


[58] 


[59] 


[60] 
[61] 


[62] 


[63] 


[64] 


[65] 


(2014). 

Filchenkov, A., Pendryak, A.: Dataset metafeature description for recommending feature selection. In: 
Proceedings of AINL-ISMW FRUCT 2015. pp. 11-18 (2015). 

Fink, M.: Object classification from a single example utilizing class relevance metrics. In: Advances in 
Neural information processing systems, NeurIPS 2005. pp. 449-456 (2005). 

Finn, C., Abbeel, P., Levine, S.: Model-agnostic meta-learning for fast adaptation of deep networks. 
In: Proceedings of ICML 2017. pp. 1126-1135 (2017). 

Finn, C., Levine, S.: Meta-learning and universality: Deep representations and Gradient Descent can 
Approximate any Learning Algorithm. In: Proceedings of ICLR 2018 (2018). 

Fürnkranz, J., Petrak, J.: An evaluation of landmarking variants. ECML/PKDD 2001 Workshop on 
Integrating Aspects of Data Mining, Decision Support and Meta-Learning pp. 57-68 (2001). 

Fusi, N., Sheth, R., Elibol, H.M.: Probabilistic matrix factorization for automated machine learning. 
In: Advances in Neural information processing systems, NeurIPS 2018, pp. 3352-3361 (2018). 

Gil, Y., Yao, K.T., Ratnakar, V., Garijo, D., Ver Steeg, G., Szekely, P., Brekelmans, R., Kejriwal, M., 
Luo, F., Huang, I.H.: P4ML: A phased performance-based pipeline planner for automated machine 
learning. In: AutoML Workshop at ICML 2018 (2018). 

Giraud-Carrier, C.: Metalearning-a tutorial. In: Tutorial at the International Conference on Machine 
Learning and Applications. pp. 1-45 (2008). 

Giraud-Carrier, C., Provost, F.: Toward a justification of meta-learning: Is the no free lunch theorem a 
show-stopper. In: Proceedings of the ICML-2005 Workshop on Meta-learning. pp. 12-19 (2005). 
Golovin, D., Solnik, B., Moitra, S., Kochanski, G., Karro, J., Sculley, D.: Google vizier: A service for 
black-box optimization. In: Proceedings of ICDM 2017. pp. 1487-1495 (2017). 

Gomes, T.A., Prudéncio, R.B., Soares, C., Rossi, A.L., Carvalho, A.: Combining metalearning and 
search techniques to select parameters for support vector machines. Neurocomputing 75(1), 3-13 (2012). 
Graves, A., Wayne, G., Danihelka, I.: Neural turing machines. arXiv preprint arXiv: 1410.5401 (2014). 
Guerra, S.B., Prudéncio, R.B., Ludermir, T.B.: Predicting the performance of learning algorithms using 
support vector machines as meta- regressors. In: Proceedings of ICANN. pp. 523-532 (2008). 

Hengst, B.: Discovering Hierarchy in Reinforcement Learning with HEXQ. In: International 
Conference on Machine Learning. pp. 243-250 (2002). 

Hilario, M., Kalousis, A.: Fusion of meta-knowledge and meta-data for case-based model selection. 
Lecture Notes in Computer Science 2168, 180-191 (2001). 

Ho, T.K., Basu, M.: Complexity measures of supervised classification problems. Pattern Analysis and 
Machine Intelligence. 24(3), 289-300 (2002). 

Hochreiter, S., Younger, A., Conwell, P.: Learning to learn using gradient descent. In: Lecture Notes 
on Computer Science, 2130. pp. 87-94 (2001). 


60 


[66] 
[67] 


[68] 


[69] 


[70] 


[71] 


[72] 


[73] 
[74] 


[75] 


[76] 


[77] 


[78] 


[79] 


[80] 


[81] 


[82] 


[83] 


自动 机 器 学 习 ( AutoML ) : 方法 、 系 统 与 挑战 


Hochreiter, S., Schmidhuber, J.: Long short-term memory. Neural computation 9(8), 1735-1780 (1997). 
Hutter, F., Hoos, H., Leyton-Brown, K.: An Efficient Approach for Assessing Hyperparameter 
Importance. In: Proceedings of ICML (2014). 

Hutter, F., Xu, L., Hoos, H., Leyton-Brown, K.: Algorithm runtime prediction: Methods & evaluation. 
Artificial Intelligence 206, 79-111 (2014). 

Jones, D.R., Schonlau, M.,Welch, W.J.: Efficient global optimization of expensive black-box functions. 
Journal of Global Optimization 13(4), 455-492 (1998). 

Kalousis, A.: Algorithm Selection via Meta-Learning. Ph.D. thesis, University of Geneva, Department 
of Computer Science (2002). 

Kalousis, A., Hilario, M.: Representational issues in meta-learning. Proceedings of ICML 2003 
pp. 313-320 (2003). 

Kalousis, A., Hilario, M.: Model selection via meta-learning: a comparative study. International 
Journal on Artificial Intelligence Tools 10(4), 525-554 (2001). 

Kendall, M.G.: A new measure of rank correlation. Biometrika 30(1/2), 81-93 (1938). 

Kietz, J.U., Serban, F., Bernstein, A., Fischer, S.: Designing KDD-workflows via HTN-planning for 
intelligent discovery assistance. In: 5th Planning to Learn Workshop at ECAI 2012 (2012). 

Kim, J., Kim, S., Choi, S.: Learning to warm-start Bayesian hyperparameter optimization. arXiv 
preprint arXiv: 1710.06219 (2017). 

Kópf, C., Iglezakis, I.: Combination of task description strategies and case base properties for meta- 
learning. ECML/PKDD Workshop on Integration and Collaboration Aspects of Data Mining pp. 65-76 
(2002). 

Kópf, C., Taylor, C., Keller, J.: Meta-analysis: From data characterization for meta-learning to meta- 
regression. In: PKDD Workshop on Data Mining, Decision Support, Meta-Learning and ILP. pp. 
15-26 (2000). 

Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural 
networks. In: Advances in neural information processing systems. pp. 1097-1105 (2012). 

Kuba, P., Brazdil, P., Soares, C., Woznica, A.: Exploiting sampling and meta-learning for parameter 
setting support vector machines. In: Proceedings of IBERAMIA 2002. pp. 217-225 (2002). 

Kullback, S., Leibler, R.A.: On information and sufficiency. The annals of mathematical statistics 
22(1), 79-86 (1951). 

Lacoste, A., Marchand, M., Laviolette, F., Larochelle, H.: Agnostic Bayesian learning of ensembles. 
In: Proceedings of ICML. pp. 611-619 (2014). 

Lake, B.M., Ullman, T.D., Tenenbaum, J.B., Gershman, S.J.: Building machines that learn and think 
like people. Behavior and Brain Science 40 (2017). 


Leite, R., Brazdil, P.: Predicting relative performance of classifiers from samples. Proceedings of 


[84] 


[85] 


[86] 


[87] 


[88] 


189] 


[90] 


[91] 


[92] 


193] 


[94] 


[95] 


[96] 


[97] 


[98] 


[99] 


ICML pp. 497-504 (2005). 

Leite, R., Brazdil, P.: An iterative process for building learning curves and predicting relative 
performance of classifiers. Lecture Notes in Computer Science 4874, 87—98 (2007). 

Leite, R., Brazdil, P., Vanschoren, J.: Selecting Classification Algorithms with Active Testing. Lecture 
Notes in Artificial Intelligence 10934, 117—131 (2012). 

Leite, R., Brazdil, P.: Active testing strategy to predict the best classification algorithm via sampling 
and metalearning. In: Proceedings of ECAI 2010. pp. 309-314 (2010). 

Lemke, C., Budka, M., Gabrys, B.: Metalearning: a survey of trends and technologies. Artificial 
intelligence review 44(1), 117-130 (2015). 

Ler, D., Koprinska, I., Chawla, S.: Utilizing regression-based landmarkers within a metalearning 
framework for algorithm selection. Technical Report 569. University of Sydney pp. 44-51 (2005). 

Li, K., Malik, J.: Learning to optimize. In: Proceedings of ICLR 2017 (2017). 

Li, K., Malik, J.: Learning to optimize neural nets. arXiv preprint arXiv:1703.00441 (2017). 

Lin, S.: Rank aggregation methods. WIREs Computational Statistics 2, 555-570 (2010). 

Lindner, G., Studer, R.: AST: Support for algorithm selection with a CBR approach. In: ICML 
Workshop on Recent Advances in Meta-Learning and Future Work. pp. 38-47. J. Stefan Institute (1999). 
Lorena, A.C., Maciel, A.I., de Miranda, P.B.C., Costa, I.G., Prudêncio, R.B.C.: Data complexity meta- 
features for regression problems. Machine Learning 107(1), 209-246 (2018). 

Luo, G.: A review of automatic selection methods for machine learning algorithms and hyperparameter 
values. Network Modeling Analysis in Health Informatics and Bioinformatics 5(1), 18 (2016). 
Mantovani, R.G., Horvath, T., Cerri, R., Vanschoren, J., de Carvalho, A.C.: Hyper-parameter tuning of 
a decision tree induction algorithm. In: Brazilian Conference on Intelligent Systems. pp. 37-42 (2016). 
Mantovani, R.G., Rossi, A.L., Vanschoren, J., Bischl, B., Carvalho, A.C.: To tune or not to tune: 
recommending when to adjust SVM hyper-parameters via meta-learning. In: Proceedings of IJCNN. 
pp. 1-8 (2015). 

Mantovani, R.G., Rossi, A.L., Vanschoren, J., Carvalho, A.C.: Meta-learning recommendation of 
default hyper-parameter values for SVMs in classifications tasks. In: ECML PKDD Workshop on 
Meta-Learning and Algorithm Selection (2015). 

Mantovani, R.: Use of meta-learning for hyperparameter tuning of classification problems. Ph.D. 
thesis, University of Sao Carlos, Brazil (2018). 

99. Michie, D., Spiegelhalter, D.J., Taylor, C.C., Campbell, J.: Machine Learning, Neural and 
Statistical Classification. Ellis Horwood (1994). 


[100] Miranda, P., Prudéncio, R.: Active testing for SVM parameter selection. In: Proceedings of IJCNN. 


pp. 1-8 (2013). 


[101] Mishra, N., Rohaninejad, M., Chen, X., Abbeel, P.: A simple neural attentive meta-learner. In: 


62 自动 机 器 学 习 ( AutoML ) : 方法 、 系 统 与 挑战 


Proceedings of ICLR (2018). 
[102] Misir, M., Sebag, M.: Algorithm Selection as a Collaborative Filtering Problem. Research report, 


INRIA (2013). 

[103] Misir, M., Sebag, M.: Alors: An algorithm recommender system. Artificial Intelligence 244, 291-314 
(2017). 

[104] Nadaraya, E.A.: On estimating regression. Theory of Probability & Its Applications 9(1), 141-142 
(1964). 


[105] Nguyen, P., Hilario, M., Kalousis, A.: Using meta-mining to support data mining workflow planning 
and optimization. Journal of Artificial Intelligence Research 51, 605—644 (2014). 

[106] Nichol, A., Achiam, J., Schulman, J.: On first-order meta-learning algorithms. arXiv 1803.02999v2 
(2018). 

[107] Niculescu-Mizil, A., Caruana, R.: Learning the Structure of Related Tasks. In: Proceedings of NIPS 
Workshop on Inductive Transfer (2005). 

[108] Nisioti, E., Chatzidimitriou, K., Symeonidis, A.: Predicting hyperparameters from metafeatures in 
binary classification problems. In: AutoML Workshop at ICML (2018). 

[109] Olier, I., Sadawi, N., Bickerton, G., Vanschoren, J., Grosan, C., Soldatova, L., King, R.:Meta-QSAR: 
learning how to learn QSARs. Machine Learning 107, 285-311 (2018). 

[110] Olson, R.S., Bartley, N., Urbanowicz, R.J., Moore, J.H.: Evaluation of a tree-based pipeline 
optimization tool for automating data science. In: Proceedings of GECCO. pp. 485-492 (2016). 

[111] Pan, S.J., Yang, Q.: A survey on transfer learning. IEEE Transactions on knowledge and data 
engineering 22(10), 1345-1359 (2010). 

[112] Pang, K., Dong, M., Wu, Y., Hospedales, T.: Meta-learning transferable active learning policies by 
deep reinforcement learning. In: AutoML Workshop at ICML (2018). 

[113] Peng, Y., Flach, P., Soares, C., Brazdil, P.: Improved dataset characterisation for metalearning. Lecture 
Notes in Computer Science 2534, 141-152 (2002). 

[114] Perrone, V., Jenatton, R., Seeger, M., Archambeau, C.: Multiple adaptive Bayesian linear regression 
for scalable Bayesian optimization with warm start. In: Advances in Neural information processing 
systems, NeurIPS 2018 (2018). 

[115] Pfahringer, B., Bensusan, H., Giraud-Carrier, C.G.: Meta-learning by landmarking various learning 
algorithms. In: 17th International Conference on Machine Learning (ICML). pp. 743-750 (2000). 

[116] Pinto, F., Cerqueira, V., Soares, C., Mendes-Moreira, J.: autoBagging: Learning to rank bagging 
workflows with metalearning. arXiv 1706.09367 (2017). 

[117] Pinto, F., Soares, C., Mendes-Moreira, J.: Towards automatic generation of metafeatures. In: 
Proceedings of PAKDD. pp. 215-226 (2016). 

[118] Post, M.J., van der Putten, P., van Rijn, J.N.: Does Feature Selection Improve Classification? A Large 


第 2 章 元 学 习 63 


Scale Experiment in OpenML. In: Advances in Intelligent Data Analysis XV. pp. 158-170 (2016). 

[119] Priya, R., De Souza, B.F., Rossi, A., Carvalho, A.: Using genetic algorithms to improve prediction of 
execution times of ML tasks. In: Lecture Notes in Computer Science. vol. 7208, pp. 196-207 (2012). 

[120] Probst, P., Bischl, B., Boulesteix, A.L.: Tunability: Importance of hyperparameters of machine learning 
algorithms. ArXiv 1802.09596 (2018). 

[121] Prudéncio, R., Ludermir, T.: Meta-learning approaches to selecting time series models. 
Neurocomputing 61, 121-137 (2004). 

[122] Raina, R., Ng, A.Y., Koller, D.: Transfer Learning by Constructing Informative Priors. In: Proceedings 
of ICML (2006). 

[123] Rakotoarison, H., Sebag, M.: AutoML with Monte Carlo Tree Search. In: ICML Workshop on AutoML 
2018 (2018). 

[124] Ramachandran, A., Gupta, S., Rana, S., Venkatesh, S.: Information-theoretic transfer learning 
framework for Bayesian optimisation. In: Proceedings of ECMLPKDD (2018). 

[125] Ramachandran, A., Gupta, S., Rana, S., Venkatesh, S.: Selecting optimal source for transfer learning in 
Bayesian optimisation. In: Proceedings of PRICAI. pp. 42-56 (2018). 

[126] Ravi, S., Larochelle, H.: Optimization as a model for few-shot learning. In: Proceedings of ICLR (2017). 

[127] Reed, S., Chen, Y., Paine, T., Oord, A.v.d., Eslami, S., Rezende, D., Vinyals, O., de Freitas, N.: Few- 
shot autoregressive density estimation: Towards learning to learn distributions. In: Proceedings of 
ICLR 2018 (2018). 

[128] Reif, M., Shafait, F., Dengel, A.: Prediction of classifier training time including parameter 
optimization. In: Proceedings of GfKI 2011. pp. 260-271 (2011). 

[129] Reif, M., Shafait, F., Dengel, A.: Meta-learning for evolutionary parameter optimization of classifiers. 
Machine learning 87(3), 357-380 (2012). 

[130] Reif, M., Shafait, F., Goldstein, M., Breuel, T., Dengel, A.: Automatic classifier selection for non- 
experts. Pattern Analysis and Applications 17 (1), 83-96 (2014). 

[131] Ren, M., Triantafillou, E., Ravi, S., Snell, J., Swersky, K., Tenenbaum, J.B., Larochelle, H., Zemel, R.S.: 
Meta-learning for semi-supervised few-shot classification. In: Proceedings of ICLR 2018 (2018). 

[132] Rendle, S.: Factorization machines. In: Proceedings of ICDM 2015. pp. 995-1000 (2010). 

[133] Ridd, P., Giraud-Carrier, C.: Using metalearning to predict when parameter optimization is likely 
to improve classification accuracy. In: ECAI Workshop on Meta-learning and Algorithm Selection. 
pp. 18-23 (2014). 

[134] van Rijn, J., Abdulrahman, S., Brazdil, P., Vanschoren, J.: Fast Algorithm Selection Using Learning 
Curves. In: Proceedings of IDA (2015). 

[135] van Rijn, J., Holmes, G., Pfahringer, B., Vanschoren, J.: The Online Performance Estimation 


Framework. Heterogeneous Ensemble Learning for Data Streams. Machine Learning 107, 149-176 


64 自动 机 器 学 习 ( AutoML ) : 方法 、 系 统 与 挑战 


(2018). 

[136] van Rijn, J.N., Hutter, F.: Hyperparameter importance across datasets. In: Proceedings of KDD. 
pp. 2367-2376 (2018). 

[137] van Rijn, J.N., Holmes, G., Pfahringer, B., Vanschoren, J.: Algorithm selection on data streams. In: 
Discovery Science. pp. 325-336 (2014). 

[138] Rivolli, A., Garcia, L., Soares, C., Vanschoren, J., de Carvalho, A.: Towards reproducible empirical 
research in meta-learning. arXiv preprint 1808.10406 (2018). 

[139] Robbins, H.: Some aspects of the sequential design of experiments. In: Herbert Robbins Selected 
Papers, pp. 169-177. Springer (1985). 

[140] Rosenstein, M.T., Marx, Z., Kaelbling, L.P.: To Transfer or Not To Transfer. In: NIPS Workshop on 
transfer learning (2005). 

[141] Rousseeuw, P.J., Hubert, M.: Robust statistics for outlier detection. Wiley Interdisciplinary Reviews: 
Data Mining and Knowledge Discovery 1(1), 73-79 (2011). 

[142] Runarsson, T.P., Jonsson, M.T.: Evolution and design of distributed learning rules. In: IEEE 
Symposium on Combinations of Evolutionary Computation and Neural Networks. pp. 59-63 (2000). 

[143] Salama, M.A., Hassanien, A.E., Revett, K.: Employment of neural network and rough set in meta- 
learning. Memetic Computing 5(3), 165-177 (2013). 

[144] Sanders, S., Giraud-Carrier, C.: Informing the use of hyperparameter optimization through 
metalearning. In: Proceedings of ICDM 2017. pp. 1051-1056 (2017). 

[145] Santoro, A., Bartunov, S., Botvinick, M., Wierstra, D., Lillicrap, T.: Meta-learning with memory- 
augmented neural networks. In: International conference on machine learning. pp. 1842-1850 (2016). 

[146] Santoro, A., Bartunov, S., Botvinick, M., Wierstra, D., Lillicrap, T.: One-shot learning with memory- 
augmented neural networks. arXiv preprint arXiv: 1605.06065 (2016). 

[147] dos Santos, P., Ludermir, T., Prudéncio, R.: Selection of time series forecasting models based on 
performance information. 4th International Conference on Hybrid Intelligent Systems pp. 366-371 
(2004). 

[148] Schilling, N., Wistuba, M., Drumond, L., Schmidt-Thieme, L.: Hyperparameter optimization with 
factorized multilayer perceptrons. In: Proceedings of ECML PKDD. pp. 87-103 (2015). 

[149] Schmidhuber, J.: Learning to control fast-weight memories: An alternative to dynamic recurrent 
networks. Neural Computing 4(1), 131-139 (1992). 

[150] Schmidhuber, J.: A neural network that embeds its own meta-levels. In: Proceedings of ICNN. pp. 
407-412 (1993). 

[151] Schmidhuber, J., Zhao, J., Wiering, M.: Shifting inductive bias with success-story algorithm, adaptive 
levin search, and incremental self-improvement. Machine Learning 28(1), 105-130 (1997). 

[152] Schoenfeld, B., Giraud-Carrier, C., Poggeman, M., Christensen, J., Seppi, K.: Feature selection for 


第 2 章 元 学 习 65 


high-dimensional data: A fast correlation-based filter solution. In: AutoML Workshop at ICML (2018). 

[153] Serban, F., Vanschoren, J., Kietz, J., Bernstein, A.: A survey of intelligent assistants for data analysis. 
ACM Computing Surveys 45(3), Art.31 (2013). 

[154] Sharif Razavian, A., Azizpour, H., Sullivan, J., Carlsson, S.: Cnn features off-the-shelf: an astounding 
baseline for recognition. In: Proceedings of CVPR 2014. pp. 806-813 (2014). 

[155] Sharkey, N.E., Sharkey, A.J.C.: Adaptive Generalization. Artificial Intelligence Review 7, 313-328 
(1993). 

[156] Smith-Miles, K.A.: Cross-disciplinary perspectives on meta-learning for algorithm selection. ACM 
Computing Surveys 41(1), 1-25 (2009). 

[157] Snell, J., Swersky, K., Zemel, R.: Prototypical networks for few-shot learning. In: Neural Information 
Processing Systems. pp. 4077-4087 (2017). 

[158] Soares, C., Brazdil, P., Kuba, P.: A meta-learning method to select the kernel width in support vector 
regression. Machine Learning 54, 195-209 (2004). 

[159] Soares, C., Ludermir, T., Carvalho, F.D.: An analysis of meta-learning techniques for ranking clustering 
algorithms applied to artificial data. Lecture Notes in Computer Science 5768, 131—140 (2009). 

[160] Soares, C., Petrak, J., Brazdil, P: Sampling based relative landmarks: Systematically testdriving 
algorithms before choosing. Lecture Notes in Computer Science 3201, 250-261 (2001). 

[161] Springenberg, J., Klein, A., Falkner, S., Hutter, F.: Bayesian optimization with robust Bayesian neural 
networks. In: Advances in Neural Information Processing Systems (2016). 

[162] Stern, D.H., Samulowitz, H., Herbrich, R.,Graepel, T., Pulina, L., Tacchella, A.: Collaborative expert 
portfolio management. In: Proceedings of AAAI. pp. 179-184 (2010). 

[163] Strang, B., van der Putten, P., van Rijn, J.N., Hutter, F.: Don't Rule Out Simple Models Prematurely. 
In: Advances in Intelligent Data Analysis (2018). 

[164] Sun, Q., Pfahringer, B., Mayo, M.: Towards a Framework for Designing Full Model Selection and 
Optimization Systems. In: International Workshop on Multiple Classifier Systems. pp. 259-270 (2013). 

[165] Sun, Q., Pfahringer, B.: Pairwise meta-rules for better meta-learning-based algorithm ranking. 
Machine Learning 93(1), 141-161 (2013). 

[166] Swersky, K., Snoek, J., Adams, R.P.: Multi-task Bayesian optimization. In: Advances in neural 
information processing systems. pp. 2004-2012 (2013). 

[167] Thompson, W.R.: On the likelihood that one unknown probability exceeds another in view of the 
evidence of two samples. Biometrika 25(3/4), 285-294 (1933). 

[168] Thrun, S.: Lifelong Learning Algorithms. In: Learning to Learn, chap. 8, pp. 181-209. Kluwer 
Academic Publishers, MA (1998). 

[169] Thrun, S., Mitchell, T.: Learning One More Thing. In: Proceedings of IJCAI. pp. 1217-1223 (1995). 

[170] Thrun, S., Pratt, L.: Learning to Learn: Introduction and Overview. In: Learning to Learn, pp. 3-17. 


66 自动 机 器 学 习 ( AutoML ) : 方法 、 系 统 与 挑战 


Kluwer (1998). 

[171] Todorovski, L., Blockeel, H., DZeroski, S.: Ranking with predictive clustering trees. Lecture Notes in 
Artificial Intelligence 2430, 444—455 (2002). 

[172] Todorovski, L., Brazdil, P., Soares, C.: Report on the experiments with feature selection in meta-level 
learning. PKDD 2000 Workshop on Data mining, Decision support, Meta-learning and ILP pp. 27-39 
(2000). 

[173] Todorovski, L., Dzeroski, S.: Experiments in meta-level learning with ILP. Lecture Notes in Computer 
Science 1704, 98-106 (1999). 

[174] Vanschoren, J., van Rijn, J.N., Bischl, B., Torgo, L.: OpenML: networked science in machine learning. 
ACM SIGKDD Explorations Newsletter 15(2), 49-60 (2014). 

[175] Vanschoren, J.: Understanding Machine Learning Performance with Experiment Databases. Ph.D. 
thesis, Leuven University (2010). 

[176] Vanschoren, J.: Meta-learning: A survey. arXiv:1810.03548 (2018). 

[177] Vanschoren, J., Blockeel, H., Pfahringer, B., Holmes, G.: Experiment databases. Machine Learning 
87(2), 127-158 (2012). 

[178] Vartak, M., Thiagarajan, A., Miranda, C., Bratman, J., Larochelle, H.: A meta-learning perspective on 
cold-start recommendations for items. In: Advances in Neural Information Processing Systems. pp. 
6904-6914 (2017). 

[179] Vilalta, R.: Understanding accuracy performance through concept characterization and algorithm 
analysis. ICML Workshop on Recent Advances in Meta-Learning and Future Work (1999). 

[180] Vilalta, R., Drissi, Y.: A characterization of difficult problems in classification. Proceedings of ICMLA 
(2002). 

[181] Vinyals, O., Blundell, C., Lillicrap, T., Wierstra, D., et al.: Matching networks for one shot learning. 
In: Advances in Neural Information Processing Systems. pp. 3630-3638 (2016). 

[182] Weerts, H., Meuller, M., Vanschoren, J.: Importance of tuning hyperparameters of machine learning 
algorithms. Technical report, TU Eindhoven (2018). 

[183] Weerts, H., Meuller, M., Vanschoren, J.: Importance of tuning hyperparameters of machine learning 
algorithms. Tech. rep., TU Eindhoven (2018). 

[184] Wever, M., Mohr, F., Hüllermeier, E.: MI-plan for unlimited-length machine learning pipelines. In: 
AutoML Workshop at ICML 2018 (2018). 

[185] Wistuba,M., Schilling, N., Schmidt-Thieme, L.: Hyperparameter search space pruning, a new 
component for sequential model-based hyperparameter optimization. In: ECML PKDD 2015. pp. 104-119 
(2015). 

[186] Wistuba, M., Schilling, N., Schmidt-Thieme, L.: Learning hyperparameter optimization initializations. 
In: 2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA). pp. 1-10 


(2015). 

[187] Wolpert, D., Macready, W.: No free lunch theorems for search. Technical Report SFI-TR-95-02-010, 
The Santa Fe Institute (1996). 

[188] Yang, C., Akimoto, Y., Kim, D., Udell, M.: OBOE: Collaborative filtering for automl initialization. In: 
NeurIPS 2018 Workshop on Metalearning (2018). 

[189] Yang, C., Akimoto, Y., Kim, D., Udell, M.: Oboe: Collaborative filtering for automl initialization. 
arXiv preprint arXiv: 1808.03233 (2018). 

[190] Yogatama, D., Mann, G.: Efficient transfer learning method for automatic hyperparameter tuning. In: 
Al and Statistics. pp. 1077-1085 (2014). 

[191] Yosinski, J., Clune, J., Bengio, Y., Lipson, H.: How transferable are features in deep neural networks? 


In: Advances in neural information processing systems. pp. 3320-3328 (2014). 


第 3 音 神经 网 络 架构 搜索 


FCN - Up O, he SERE + HERE, TB od + RIES 


概述 : 过 去 几 年 ， 深 度 学 习 使 很 多 任务 都 取得 了 显著 进步 ， 如 图 像 识 别 、 语 音 识别 和 机 器 翻译 。 
而 取得 这 一 进展 很 重要 的 一 个 方面 是 新 颖 的 神经 网 络 结构 。 目 前 所 采用 的 网 络 结构 大 多 是 由 人 类 
专家 手动 设计 的 ， 而 手动 设计 网 络 结构 这 一 过 程 既 耗 时 又 容易 出 错 。 正 因为 如 此 ， 自 动 搜索 神经 
网 络 结构 的 方法 所 获得 的 关注 越 来 越 大 。 为 了 让 读者 对 该 领域 ( 神经 网 络 结构 搜索 ，NAS ) 有 一 
个 较为 全 面 的 认识 ， 本 章 对 这 一 研究 领域 的 现 有 工作 进行 了 概述 ， 并 从 搜索 空间 、 搜 索 策略 和 性 
能 评估 策略 三 个 维度 对 这 一 领域 分 别 进行 了 介绍 。 


3.1 sl 言 


深度 学 习 在 感知 任务 上 所 取得 的 成 功 , 在 很 大 程度 上 依赖 于 特征 工程 过 程 的 自动 化 ， 
即 采用 端 到 端的 方式 从 数据 中 学 习 层次 化 的 特征 提取 器 ， 而 非 之 前 的 人 工 提 取 特征 。 而 
伴随 这 一 成 功 的 是 日 益 增 长 的 神经 网 络 架构 工程 的 需求 ， 即 手动 设计 的 神经 网 络 架构 越 
来 越 复杂 。 自 然而 然 ， 神 经 网 络 结构 搜索 〈 即 神经 网 络 架构 自动 化 的 过 程 ) 成 为 自动 机 
器 学 习 下 一 个 需要 关注 的 点 。 事 实 上 ，NAS 可 以 视 为 AutoML 的 一 个 子 领域 ， 且 与 超 参 
优化 〈 有 具体 内 容 参阅 第 1 章 ) 和 元 学 习 〈 具 体内 容 参阅 第 2 章 ) 具有 非常 大 的 交集 。 

本 章 将 从 搜索 空间 、 搜索 策略 和 性 能 评估 策略 3 个 维度 对 NAS 的 方法 进行 分 类 介绍 ， 
简 述 如 下 : 
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= 搜索 空间 。 搜 索 空 间 主要 定义 了 可 以 表示 哪些 神经 网 络 结构 ， 结 合适 合 于 特定 
任务 属性 的 先 验 知识 可 以 降低 搜索 空间 的 规模 , 并 且 能 够 简化 搜索 的 过 程 。 然而 ， 
这 种 方式 易 造 成 人 为 的 偏差 ， 该 偏差 在 一 定 程度 上 会 阻止 找到 能 够 超越 当前 人 
类 知识 的 新 结构 化 构建 模块 。 
= 搜索 策略 。 搜 索 策 略 详细 说 明了 如 何在 搜索 空间 中 进行 探索 。 搜 索 策 略 包 含 经 
典 的 探索 一 利用 平衡 : 一 方面 ， 它 需要 尽快 地 找到 性 能 良好 的 神经 网 络 架构 ; 
而 另 一 方面 ， 它 又 需要 避免 过 早 地 收 化 到 次 优 网 络 结构 的 区 域 。 
= 性 能 评估 策略 。 通 常 而 言 ，NAS 的 目标 是 找到 能 够 在 未 见 数据 上 获得 高 预测 性 
能 的 神经 网 络 结构 。 而 性 能 评估 就 是 对 该 性 能 进行 评估 的 过 程 ， 最 简单 的 方法 
是 直接 在 数据 上 对 该 结构 执行 一 次 标准 的 训练 和 验证 过 程 ， 但 不 幸 的 是 该 方法 
的 计算 量 会 非常 大 ， 从 而 限制 了 可 以 探索 的 结构 数量 。 正 因为 如 此 ， 近 期 的 很 
多 工作 都 旨 在 开发 出 能 够 降低 性 能 评估 代价 的 方法 。 
图 3.1 简单 展示 了 以 上 3 个 维度 《搜索 空间 、 搜 索 策 略 及 性 能 评估 策略 ) 之 间 的 相 
互 关系 。 而 且 ， 本 章 内 容 也 是 基于 以 上 3 个 维度 进行 组 织 的 : 3.2 节 主 要 对 搜索 空间 进 
行 介绍 ，3.3 节 主 要 讨论 搜索 策略 ，3.4 节 对 性 能 评估 的 相关 方法 进行 阐述 。 最 后 ，3.5 
节 对 未 来 的 发 展 方向 进行 展望 和 总 结 。 另 外 ， 本 章 内 容 主 要 基于 文献 [23] 展开 的 ， 感 兴 
趣 的 读者 可 以 仔细 阅读 该 文献 。 


结构 : ACA 
搜索 空间 搜索 策略 E. 性 能 评估 策略 


4 的 性 能 评估 
图 3.1 神经 网 络 结构 搜索 方法 简要 概述 图 


ER 具体 而 言 ， 首 先 搜索 策略 会 从 预定 义 的 搜索 空间 4 中 选择 一 个 网 络 结构 4 。 随 后 将 结构 4 传递 到 
性 能 评估 策略 中 。 接 下 来 ， 性 能 评估 策略 会 返回 结构 4 的 性 能 评估 结果 。 


3.2 ”搜索 空间 


搜索 空间 定义 了 NAS 方法 原则 上 能 够 探索 的 神经 架构 范围 。 下 面 对 近 期 研究 工作 
中 常见 的 搜索 空间 进行 介绍 。 
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一 个 相对 比较 简单 的 搜索 空间 是 链 式 结构 神经 网 络 空间 ， 如 图 3.2 (a) Hr. Rh 
而 言 , 链 式 结构 神经 网 络 架构 4 TARRA n RFA, BI A L, oo L oL, Aris 
第 i 层 工 的 输入 为 第 i-1 层 的 输出 ， 而 第 i 层 的 输出 将 作为 第 i+1 层 的 输入 。 随 后 ， 对 搜 
索 空 间 进行 参数 化 : O GK) 层级 数量 n ， 该 数量 可 以 是 不 受 限 制 的 ，@ 每 层 可 执行 
的 操作 类 型 , 如 池 化 、 卷 积 及 更 为 高 级 的 层级 类 型 , 如 深度 可 分 离 卷 积 中 或 扩张 卷 积 外; 
@ 操 作 所 对 应 的 超 参 ， 如 滤波 器 数量 、 卷 积 层 的 核 尺 寸 和 步 长 '0 下 或 全 连接 网 络 的 
单元 数量 中。 需要 注意 的 是 ，@ 所 提 到 的 超 参 取决 于 @ 的 操作 类 型 ， 因 此 搜索 空间 的 参 
数 化 并 非 是 固定 长 度 的 ， 而 是 条 件 化 的 。 


(b) 
图 3.2 不 同 架构 空间 的 简单 示例 图 


E3 图 中 每 个 节点 都 对 应 神经 网 络 的 一 个 网 络 层 ， 如 卷 积 层 或 池 化 层 。 为 了 显示 更 为 直观 ， 图 中 网 络 
层 类 型 不 同 ， 颜 色 也 会 不 同 。 层 石 到 层 石 的 边 表示 五 的 输出 将 会 是 石 的 输入 。 其 中 ， a 图 为 一 个 
链 式 结构 的 网 络 结构 空间 ， Cb) 图 为 一 个 稍微 复杂 点 的 搜索 空间 ， 该 搜索 空间 存在 额外 的 网 络 层 类 型 、 
多 分 支 和 跳跃 连接 。 


第 3 章 神经 网 络 架构 搜索 Tl 


近期 NAS 工作 9 1 2i 22 49, 加 所 结合 的 手工 搭建 网 络 结构 中 的 现代 设计 元 素 〈 如 
跳跃 连接 ) ， 能 够 支持 建立 复杂 、 多 分 支 的 神经 网 络 ， 如 图 3.2 (b) Mam. HH, Bi 
的 输入 可 以 被 形式 化 为 结合 了 之 前 层 输出 的 函数 : g (1. 9", 9" ) ， 使 用 该 函数 可 以 
在 实际 任务 中 获得 更 大 程度 的 自由 度 。 这 里 给 出 一 些 多 分 支 结构 的 特殊 示例 : 四 若是 链 
式 结构 网 络 ， 可 设 定 g (LN LL") = 1; @ 若 是 残 差 网 络 吗 ， 会 对 之 前 层 的 输出 
HET RA, Bg. (Ds L )- DD j<is OF PBEM DenseNets!!, & 
对 之 前 层 的 输出 进行 拼接 ， 即 8 (I5, D I" ) =concat(L™,---, 03") o 
受 手工 搭建 结构 中 的 重复 功能 域 启发 2) 外， 文献 [75] 和 文献 [71] 的 作者 都 提出 对 
这 些 被 称 为 单元 或 块 的 功能 域 进行 搜索 ， 而 非 搜索 整个 网 络 结构 。 具 体 而 言 ， 佐 夫 等 中 
会 优化 两 个 不 同类 型 的 单元 : @ 常 规 单元 ， 主 要 用 于 维持 输入 的 维度 ，@@ 约 简单 元 ， 主 
要 用 于 降低 空间 维度 。 随 后 ， 会 以 一 种 预先 定义 的 方式 对 这 些 单元 进行 拼接 ， 进 而 建立 
最 终 的 神经 网 络 结构 ， 如 图 3.3 所 示 。 与 之 前 讨论 的 搜索 空间 相 比 ， 基 于 单元 的 搜索 空 
间 具 有 两 个 显著 优势 。 
= 单元 格 相对 较 小 ， 使 得 搜索 空间 的 规模 得 以 显著 降低 。 举 例 而 言 ， 与 佐 夫 等 之 
前 的 工作 相 比 叫 ， 他 们 现在 的 工作 I9 在 获得 更 高 性 能 的 同时 ， 使 运算 速度 也 提 
高 了 7 倍 。 

- 通过 调整 模型 所 使 用 的 单元 格 数量 ， 单 元 可 以 更 为 容易 地 迁移 到 其 他 数据 集 。 
FKL, RF 5 将 在 CIFAR-10 数据 集 上 所 优化 的 单元 迁移 到 ImageNet 数据 
集 后 ， 取 得 了 当前 的 最 好 性 能 。 

结果 而 言 ， 基 于 单元 的 搜索 空间 在 很 多 近期 工作 中 也 得 以 成 功 运 用 岂 22. 31. 39 46, 49, 72), 
目前 在 使 用 基于 单元 的 搜索 空间 时 ， 一 种 新 的 设计 思路 出 现 了 ， 即 如 何 选择 元 结构 ， 具 
体 而 言 ， 就 是 指 应 当 使 用 多 少 个 单元 及 如 何 连接 它们 以 建立 准确 的 模型 。 举 例 而 言 ， 在 
文献 [75] 中 ， 佐 夫 等 基于 单元 建立 了 一 个 顺序 模型 ， 其 中 每 个 单元 会 将 其 两 个 前 置 单 元 
的 输出 作为 它 的 输入 。 而 在 文献 [11] 中 , 蔡 等 利用 了 知名 手动 设计 框架 (如 DenseNet 四 ) 
中 的 高 级 结构 , 并 直接 使 用 了 这 些 模型 中 的 单元 。 原则 上 , 单元 的 组 合 方式 可 以 是 任意 的 ， 
如 在 多 分 支 空 间 中 只 需要 将 网 络 层 蔡 换 成 单元 即 可 。 理 想 情 况 下 ， 元 结构 应 当 作 为 NAS 
的 一 部 分 ， 可 以 被 自动 优化 ;否则 ， 元 结构 工程 很 容易 就 会 被 完成 。 另 外 ， 如 果 元 结构 
已 经 涵盖 了 大 部 分 的 复杂 性 ， 那 么 单元 的 搜索 将 会 变 得 过 于 简单 。 


72 自动 机 器 学 习 ( AutoML ) : 方法 、 系 统 与 挑战 


3.3 ”单元 搜索 空间 示例 图 


EB Pep. (GO 图 表示 两 个 不 同 的 单元 ， 上 面 为 常规 单元 ， 下 面 为 约 简单 元 r9; (b) 图 为 基于 单元 
的 顺序 拼接 所 建立 的 神经 网 络 结构 。 需 要 注意 的 是 ， 也 可 以 一 种 更 为 复杂 的 方式 对 单元 进行 组 合 ， 如 
多 分 支 方式 ， 只 需 将 网 络 层 换 成 单元 即 可 。 


元 结构 优化 的 一 个 方向 是 刘 等 所 提出 的 层次 化 搜索 空间 吗 ， 该 空间 含有 若干 层级 的 
功能 域 : 第 一 层 由 基本 操作 组 成 :第 二 层 由 通过 有 向 无 环 图 连接 基本 操作 而 形成 的 不 同 
功能 域 所 组 成 ; 第 三 层 由 能 够 编码 如 何 连接 第 二 层 功 能 域 的 功能 域 所 组 成 ， 依 此 类 推 。 
而 基于 单元 的 搜索 空间 可 以 被 视 为 层次 化 搜索 空间 的 一 个 特例 ， 其 中 层级 数量 为 三 ， 第 
二 层 的 功能 域 对 应 于 单元 ， 第 三 层 为 硬 编码 的 元 结构 。 

搜索 空间 的 选择 很 大 程度 上 决定 了 优化 问题 的 复杂 度 : 即使 是 对 基于 单个 单元 的 拥 
有 固定 元 结构 的 搜索 空间 ， 优 化 问题 仍然 是 非 连 续 且 相对 高 维 的 (因为 更 为 复杂 的 模型 
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往往 表现 更 好 ， 导 致 了 更 多 的 设计 选择 ) 。 需 要 注意 的 是 ， 很 多 搜索 空间 中 的 架构 都 可 
以 被 写成 固定 长 度 的 向 量 。 举 例 而 言 ， 在 佐 夫 等 的 工作 中 中 ， 两 个 单元 格 的 各 自 搜索 
空间 可 以 写成 一 个 40 维 的 类 别 型 向 量 , 每 一 个 都 在 少量 不 同 构建 模块 和 输入 中 进行 选择 。 
类 似 地 ， 无 边界 搜索 空间 可 以 被 约束 为 具有 最 大 深度 ， 进 而 能 够 产生 固定 大 小 的 条 件 维 
度 型 搜索 空间 。 

下 一 节 将 会 讨论 能 够 适 配 这 些 不 同类 型 搜索 空间 的 搜索 策略 。 


3.3 搜索 策略 


有 很 多 能 够 探索 神经 网 络 架构 空间 的 搜索 策略 ， 如 随机 搜索 、 贝 叶 斯 优化 、 进 化 算 
法 、 强 化 学 习 (RL) 及 基于 梯度 的 方法 。 从 历史 上 看 ， 进 化 算法 在 多 年 前 就 被 很 多 研究 
者 用 来 探索 神经 网 络 的 结构 及 相应 的 权重 ， 如 文献 [2, 25, 55, 56]。 在 文献 [67] 中 ， 姚 对 
2000 年 之 前 的 相关 研究 工作 进行 了 概述 。 

自 2013 年 以 来 ， 贝 叶 斯 优化 在 NAS 上 取得 了 一 些 早 期 的 成 功 ， 如 获得 了 最 为 领先 
的 视觉 架构 中、 在 未 进行 数据 增强 的 前 提 下 取得 了 CIFAR-10 数据 集 上 的 最 好 性 能 0, 
以 及 在 竞赛 数据 集 上 生成 了 超越 人 类 专家 的 第 一 个 自动 调 优 的 神经 网 络 n, fie ARR Int 
采用 基于 强化 学 习 的 搜索 策略 在 CIFAR-10 数据 集 和 Penn Treebank 基准 测试 上 取得 有 竞 
争 力 的 性 能 之 后 ，NAS 变 成 了 机 器 学 习 社区 的 主流 研究 课题 。 不 过 ， 佐 夫 和 勒 RA 
了 大 量 的 计算 资源 (800 个 GPU 使 用 了 3 — 4 周 ) 才 取得 这 一 结果 。 在 他 们 的 工作 之 后 ， 
大 量 的 方法 紧 接着 被 发 表 ， 这 些 方法 主要 致力 于 降低 计算 成 本 和 进一步 提高 模型 性 能 。 

为 了 将 NAS 定义 成 一 个 强化 学 习 问 题目 半 全 加 ， 神 经 网 络 架 构 的 生成 可 以 被 视 为 
智能 体 的 动作 ， 其 动作 空间 即 搜索 空间 。 而 智能 体 的 奖励 则 基于 训练 架构 在 未 见 数据 上 
的 性 能 估计 具体 内 容 见 3.4 节 ) 。 不 同 强化 学 习 方法 的 差异 主要 体现 在 如 何 表示 智能 
体 的 策略 和 如 何 优化 上 。 例 如 ， 在 文献 [74] 中 ， 佐 夫 和 惑 采用 循环 神经 网 络 (RNN) R 
略 顺序 地 采样 一 个 字符 串 ， 而 该 字符 串 能 够 对 神经 网 络 结构 进行 编码 。 最 初 他 们 采用 强 
化 策略 梯度 算法 来 训练 该 网 络 ， 而 在 后 续 的 工作 吗 中 ， 他 们 采用 近似 策略 优化 (PPO) 
对 网 络 进行 训练 。 在 文献 [4] 中， 贝克 等 采用 Q-learning 方法 训练 一 个 策略 ， 该 策略 会 
顺序 地 选择 一 个 网 络 层 的 类 型 及 其 相应 的 超 参 。 这 些 方法 的 另 一 种 视角 是 将 它们 当 作 顺 
序 决 策 过 程 ， 其 中 策略 对 动作 进行 采样 以 顺序 地 生成 网 络 结构 ， 环 境 的 “状态 ”包含 目 
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前 已 采样 动作 的 概要 ， 而 〈 未 折 损 ) 奖励 是 在 最 后 一 个 动作 之 后 获得 的 。 不 过 ， 由 于 在 
这 个 顺序 过 程 中 没有 与 环境 进行 交互 《没有 观察 到 的 外 部 状态 ， 也 没有 过 渡 的 奖励 ) ， 
所 以 将 网 络 结构 采样 过 程 解释 成 单个 动作 的 顺序 生成 会 更 为 直观 。 而 且 ， 这 也 将 强化 学 
习 问 题 简 化 成 了 无 状态 的 多 臂 老虎 机 问题 。 

在 文献 [10] 中 ， 蔡 等 提出 了 一 种 相关 的 方法 ， 即 将 NAS 定义 成 顺序 决策 过 程 。 在 
他 们 的 方法 中 ， 状 态 为 当前 《部 分 训练 的 ) 神经 网 络 结构 ， 奖 励 为 结构 性 能 的 估计 ， 动 
作对 应 于 功能 保留 突变 的 一 个 应 用 ， 被 称 为 网 络 态 射 9) (3.4 节 也 对 此 进行 了 介绍 ) ， 
随后 是 网 络 训练 阶段 。 为 了 应 对 变 长 网 络 结构 ， 他 们 使 用 双向 LSTM 将 网 络 结构 编码 为 
以 定 长 表示 。 基 于 该 编码 表示 ， 演 员 网 络 决定 采样 动作 。 将 这 两 部 分 进行 组 合 就 构成 了 
策略 ， 且 该 策略 采用 强化 策略 梯度 算法 进行 端 到 端的 训练 。 需 要 注意 的 是 ， 由 于 该 方法 
不 会 再 次 访问 同一 个 状态 〈 网 络 结构 ) ， 所 以 该 策略 需要 在 结构 空间 上 具有 很 强 的 泛 化 
能 力 。 

使 用 强化 学 习 的 另 一 种 思路 是 神经 进化 算法 ， 即 采用 进化 算法 来 优化 神经 网 络 结 
构 。 据 我 们 所 知 , 第 一 个 采用 这 种 思路 来 设计 神经 网 络 结构 的 工作 可 以 追溯 到 30 年 前 : 
在 文献 [44] 中 ， 米 勒 等 采用 遗传 算法 设计 网 络 结构 ， 并 使 用 反 向 传播 方法 优化 网 络 的 
权重 。 从 那 时 起 ， 很 多 神经 进化 算法 Us 55 58 使 用 遗传 算法 来 优化 神经 网 络 结构 和 它们 
的 权重 。 然 而 ， 当 为 了 有 监督 学 习 任务 而 将 其 扩展 到 拥有 数 百 万 权重 的 现 有 神经 网 络 
结构 上 时 ， 基 于 SCD 的 权重 优化 方法 目前 优 于 进化 算法 。 因 此 ， 很 多 现 有 神经 进化 算 
法 2' 33, 43, 49, 50, 59, 651 再 次 使 用 基于 梯度 的 方法 来 优化 网 络 权重 ， 而 只 采用 进化 算法 来 
优化 网 络 结构 本 身 。 进 化 算法 会 在 一 个 模型 种 群 上 进行 演化 ， 该 模型 种 群 表示 的 是 〈 可 
能 被 训练 过 的 ) 网 络 结 构 集 合 。 在 每 一 个 进化 步骤 中 ， 至 少 会 从 种 群 中 抽取 一 个 模型 。 
随后 ， 将 其 作为 父 本 ,并 通过 突变 操作 产生 后 代 。 在 NAS 场景 中 ， 突 变 主要 指 局 部 操作 ， 
如 增加 或 删除 一 个 网 络 层 、 改 变 网 络 层 的 超 参 、 增 加 跳跃 连接 或 改变 训练 超 参 等 。 在 训 
练 完 后 代 之 后 ， 对 它们 的 适应 度 值 《 如 在 验证 集 上 的 性 能 ) 进行 评估 并 将 它们 添加 到 种 
群 中 。 

神经 进化 方法 的 区 别 主要 体现 在 如 何 采样 父 本 、 更 新 种 群 和 生成 后 代 上 。 举 例 而 言 ， 
在 文献 [38]、[49] 和 [50] 中 ， 主 要 采用 锦标 赛 选择 法 "采样 父 本 。 而 在 文献 [22] F, 
(D ”近期 很 多 研究 工作 表明 ， 当 只 有 梯度 的 高 方差 估计 值 可 用 时 〈 如 强化 学 习 任务 9 950) ， 即 使 进化 数 


百 万 个 权重 ， 进 化 算法 也 比 基 于 梯度 的 优化 算法 更 具 竞争 力 。 然 后 ， 在 有 监督 学 习 任务 上 ， 基 于 梯度 的 优化 
方法 还 是 目前 最 为 常用 的 优化 方法 。 
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埃 尔 斯 肯 等 从 多 目标 帕 累 托 前 沿 中 使 用 逆 密 度 方法 采样 父 本 。 另 外 ， 在 文献 [50] 中 ， 瑞 
尔 等 会 移 除 种 群 中 的 最 差 个 体 ,而 在 文献 [49] F, 瑞 尔 等 发 现 移 除 最 老 个 体 是 有 益 的 ( 减 
DRE) 。 在 文献 [38] 中 ， 刘 等 不 移 除 任何 个 体 。 为 了 生成 后 代 ， 很 多 方法 直接 随机 初 
始 化 子 网 络 。 不 过 ， 在 文献 [22] 中 ， 埃 尔 斯 肯 等 使 用 了 拉 马 克 式 遗传 ， 即 通过 使 用 网 络 
态 射 ， 知 识 〈 形 式 化 为 学 习 出 的 权重 ) 可 以 从 父 网 络 传递 到 子 网 络 。 在 文献 [50] 中 ， 瑞 
尔 等 也 让 后 代 继 承 父 代 中 所 有 不 受 突变 操作 影响 的 参数 。 虽 然 这 种 继承 并 非 是 完全 严格 
的 功能 保留 ， 不 过 相 比 于 随机 初始 化 ， 它 仍 有 可 能 加 快 学 习 速 度 。 再 者 ， 他 们 也 允许 对 
学 习 率 进行 调整 ， 而 这 可 以 视 为 在 NAS 期 间 优 化 学 习 率 规划 的 一 种 方法 。 

瑞 尔 等 吧 对 强化 学 习 、 进 化 算法 和 随机 搜索 进行 了 案例 研究 ， 结 果 表 明 : 在 最 后 
的 测试 精度 上 ， 强 化 学 习 和 进化 算法 表现 相同 ;进化 算法 具有 更 好 的 随时 性 能 ， 以 及 
能 够 找到 更 小 的 模型 。 在 他 们 的 实验 中 ， 强 化 学 习 算 法 和 进化 算法 都 优 于 随机 搜索 ， 不 
过 差异 很 小 : 在 CIFAR-10 数据 集 上 ， 随 机 搜索 的 测试 误差 在 4% 左右 ， 强 化 学 习 和 进 
化 算法 的 测试 误差 在 3.5% 左右 。 而 经 过 “模型 增强 ”， 即 增加 了 深度 和 滤波 器 的 数量 
后 ， 在 实际 的 非 增强 搜索 空间 上 的 误差 接近 2%。 在 工作 99 中 ， 刘 等 发 现 它 们 之 间 的 性 
能 差异 更 加 不 明显 。 具 体 而 言 ， 随 机 搜索 在 CIFAR-10 数据 集 上 的 测试 误差 为 3.9%， 在 
ImageNet 数据 集 上 的 top-1 验证 误差 为 21.0%; 而 基于 进化 的 方法 在 CIFAR-10 上 的 测 
试 误差 为 3.75%， 在 ImageNet 上 的 验证 误差 为 20.3%。 

贝 叶 斯 优化 (BO 叶 ) 是 超 参 优化 中 (具体 内 容 可 参阅 本 书 第 1 章 ) 较 为 流行 的 方法 之 一 。 
不 过 它 还 没有 被 很 多 群体 应 用 到 NAS 中 ， 因 为 代表 性 的 BO 工具 箱 都 是 基于 高 斯 过 程 ， 
且 主 要 关注 低 维 连续 优化 问题 。 斯 威 斯 基 等 o 和 坎 德 萨 米 等 51 为 了 使 用 经 典 的 基于 高 
斯 过 程 的 贝 叶 斯 优化 方法 ， 从 架构 搜索 空间 中 推导 出 了 相应 的 核 函数 ， 不 过 目前 还 没有 
取得 新 的 基准 性 的 性 能 。 与 之 相反 ， 有 几 个 工作 采用 基于 树 的 模型 〈 如 树 形 Parzen 估计 
量 色 或 随机 森林 90). 来 高 效 搜索 非常 高 维 的 条 件 空间 ， 并 在 广泛 的 问题 中 取得 目前 最 
好 的 性 能 ， 而 且 能 够 同时 优化 神经 网 络 结构 和 它们 对 应 的 超 参 愉 19 40 09, BAEZ 
一 个 完整 的 比较 ， 不 过 初步 有 证 据 表明 这 些 方法 也 会 优 于 进化 算法 091, 

架构 搜索 空间 也 以 层级 的 方式 进行 了 探索 ， 如 与 进化 算法 结合 U9 或 者 通过 基于 顺 
序 模型 的 优化 方法 外。 内 基 瑞 霍 、 戈 登 四 及 维 斯 图 巴 0691 在 他 们 的 工作 中 利用 了 搜索 空 
间 的 树 结 构 ， 并 使 用 了 蒙特 卡 洛 树 搜索 。 另 外 ， 在 文献 [21] 中 ， 埃 尔 斯 肯 等 提出 了 一 个 
简单 但 性 能 良好 的 仆 山 算法 ， 该 算法 不 需要 更 为 复杂 的 探索 机 制 ， 直 接 通 过 贪 禁 地 朝 着 
性 能 更 好 的 架构 的 方向 上 移动 ， 便 能 够 发 现 高 质量 的 神经 网 络 架 构 。 
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与 无 梯度 优化 方法 相 比 ， 刘 等 人 09 提出 了 搜索 空间 的 连续 松弛 以 实现 基于 梯度 的 
优化 ， 与 在 每 个 特定 层 固定 一 个 待 执行 的 操作 。 (如 卷 积 或 池 化 操作 等 ) 相反 的 是 ， 作 
者 直接 计算 一 组 操作 {01,0,,…,0, 的 凸 组 合 。 具 体 而 言 ， 给 定 网 络 层 的 输入 x ， 则 该 层 
的 输出 为 ?= 40 (x).4 90, SA -1 。 其 中 , 凸 系数 和 能 够 有 效 地 参数 化 网 络 结构 。 随后， 


刘 等 人 U91 通过 交 蔡 训练 数据 中 权重 的 梯度 下 降 和 验证 数据 中 神经 网 络 结构 参数 〈 如 4) 
的 梯度 下 降 ， 实 现 了 网 络 权重 和 网 络 结构 的 双 优 化 。 最 后 ， 基 于 i= arg max, 4 挑选 出 每 
一 个 网 络 层 的 相应 操作 i， 进 而 获得 一 个 离散 网 络 结构 。 艾 哈 迈 德 、 托 雷 萨 尼 巾 和 申 等 的 
也 采用 了 基于 梯度 的 神经 网 络 结构 优化 方法 ， 不 过 他 们 只 分 别 优化 网 络 层 连 接 模 式 或 网 
络 层 超 参 。 


3.4 ”性 能 评估 策略 


3.3 小 节 所 讨论 的 搜索 策略 则 在 找到 能 够 最 大 化 某 些 性 能 指标 的 神经 网 络 结构 A ， 
如 在 未 见 数 据 上 的 准确 度 。 为 了 指导 它们 的 搜索 过 程 ， 这 些 策略 需要 对 给 定 的 待考 虑 的 
网 络 结构 4 的 性 能 进行 评估 。 最 为 简单 的 方法 是 先 在 训练 数据 上 对 4 进行 训练 ， 然 后 在 
验证 数据 上 评估 4 的 性 能 。 然 而 对 于 NAS 而 言 ， 从 头 训练 每 个 待 评估 的 网 络 结构 ， 常 
常会 产生 数 千 个 CPU 运算 天 的 计算 需求 中 5 76 781, 

为 了 降低 评估 的 计算 负担 ， 可 以 根据 完全 训练 后 实际 性 能 的 低 保 真 度 〈 也 被 称 为 代理 
指标 ) 来 估计 性 能 ,这 些 低 保 真 度 主要 包括 减少 训练 次 数 外 局 、 在 数据 子 集 上 进行 训练 外、 
使 用 较 低 分 辨 率 的 图 像 中 或 者 减少 每 层 的 滤波 器 数量 9, 9 等 。 虽然 这 些 低 保 真 度 近似 
降低 了 计算 成 本 , 但 是 它们 也 在 评估 中 引进 了 偏差, 这 是 因为 性 能 往往 会 被 低估 。 事 实 上 ， 
只 要 搜索 策略 只 依赖 于 不 同 神经 结构 的 排序 ， 并 且 它 们 的 相对 排序 保持 稳定 ， 这 可 能 就 
不 是 问题 。 然 而 ,近期 一 些 结果 表明 ， 当 低 成 本 近似 和 完整 评估 之 间 的 差异 非常 大 时 9， 
相对 排名 会 发 生 显著 变化 ， 这 在 一 定 程度 上 表明 应 逐步 提升 保 真 度 0^ 91, 

估计 神经 网 络 结构 性 能 的 另 一 种 可 行 性 方案 是 基于 学 习 曲 线 外 推 法 5 19 32 48 n, 
多 姆 汉 等 人 中 提出 推断 初始 学 习 曲 线 并 终止 那些 预测 性 能 较 差 的 曲线 ， 以 加 快 神 经 网 
络 结构 的 搜索 过 程 。 贝 克 四、 克 莱 因 UU. dy RLAR 后 和 斯 沃 斯 基 97 等 也 考虑 了 结构 超 参 ， 
主要 为 了 预测 哪 部 分 学 习 曲 线 最 具 潜力 。 而 刘 等 人 四 训练 了 一 个 能 够 预测 新 网 络 结构 
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性 能 的 代理 模型 。 在 该 工作 中 ， 作 者 并 没有 采用 学 习 曲 线 外 推 法 ， 而 是 直接 基于 结构 / 
单元 的 特性 来 预测 性 能 ， 并 推断 比 训练 期 间 看 到 的 规模 更 大 的 网 络 结构 /单元 。 事 实 上 ， 
预测 神经 网 络 结构 性 能 的 主要 挑战 在 于 : 为 了 加 快 搜索 过 程 ， 需 要 基于 相对 较 少 的 评估 
次 数 ， 在 相对 较 大 的 搜索 空间 上 做 出 好 的 预测 。 

一 种 加 速 性 能 估计 的 方法 是 基于 之 前 已 训练 网 络 结构 的 权重 来 初始 化 新 网 络 结构 的 权 
重 。 实 现 这 一 目标 的 一 种 方法 是 网 络 态 射 叫 ， 它 能 够 在 保留 原始 网 络 功能 的 前 提 下 支持 
网 络 结构 的 改动 o W241 到 。 这 使 得 无 须 从 头 对 网 络 进行 训练 就 能 够 不 断 提升 网 络 的 能 
力 和 保持 高 性 能 。 另 外 ， 经 过 若干 个 回合 的 连续 训练 可 以 利用 网 络 态 射 所 带 来 的 额外 能 
力 。 这 些 方法 的 一 个 优势 是 能 够 支持 无 须 设 定神 经 网 络 结构 尺寸 固定 上 限 的 搜索 空间 1。 
另外 ， 严 格 的 网 络 态 射 只 会 使 得 网 络 结构 变 得 更 大 ， 从 而 有 可 能 生成 过 于 复杂 的 神经 网 
络 结构 。 不 过 ， 这 可 以 通过 采用 支持 神经 网 络 结构 收 束 的 近似 网 络 态 射 方法 来 缓解 四。 

—H (one-shot) 结构 搜索 是 另 一 种 有 潜力 的 加 速 性 能 评估 的 方法 ， 它 将 所 有 结构 
看 成 一 个 超 图 一步 模型 ) 的 不 同 子 图 ， 并 且 会 共享 超 图 中 有 边 连接 的 结构 之 间 的 权 
Æ 6.9.39 4 5 引 。 只 需要 训练 单个 一 步 模型 的 权重 〈 训 练 方式 比较 多 ) ， 随 后 通过 继承 
一 步 模型 训练 出 的 权重 , 便 可 以 在 不 进行 任何 单独 训练 的 前 提 下 评估 神经 网 络 的 结构 (这 
些 结构 都 是 一 步 模型 的 子 图 ) 。 这 极 大 地 提升 了 神经 网 络 结构 性 能 评估 的 速度 ， 因 为 不 
再 需要 对 网 络 结构 进行 训练 ， 只 需要 在 验证 数据 上 评估 网 络 结构 的 性 能 即 可 。 该 方法 通 
常会 产生 较 大 的 偏差 ， 因 为 它 严 重 低估 了 神经 网 络 结构 的 实际 性 能 。 不 过 由 于 估计 性 能 
和 实际 性 能 是 强 相关 的 ， 所 以 它 能 够 比较 可 靠 地 对 网 络 结构 进行 排序 W。 不 同一 步 NAS 
方法 的 差异 主要 体现 在 如 何 对 一 步 模型 进行 训练 。 举 例 而 言 ，ENASI9 学 习 一 个 能 够 从 
搜索 空间 中 采样 网 络 结构 的 RNN 控制 器 , 并 基于 强化 得 到 的 近似 梯度 来 训练 一 步 模型 。 
DARTS 使 用 搜索 空间 的 连续 松弛 对 一 步 模型 的 所 有 权重 同时 进行 优化 ， 该 连续 松弛 
主要 通过 在 一 步 模型 的 每 条 边 上 放置 混合 的 候选 操作 而 得 。 本 德 等 四 只 训练 一 步 模型 一 
次 ， 并 证 明 使 用 路 径 丢 弃 法 进行 训练 时 ， 随 机 停 用 模型 的 部 分 模块 是 可 行 的 。 区 别 在 于 ， 
ENAS 和 DARTS 在 训练 过 程 中 优化 神经 网 络 结构 的 一 个 分 布 ， 而 本 德 等 四 所 使 用 的 方 
法 可 以 视 为 使 用 一 个 固定 分 布 。 另 外 ， 本 德 等 @ 的 方法 所 获得 的 高 性 能 表明 权重 共享 和 
(精心 选择 的 ) 固定 分 布 的 结合 可 能 是 一 步 NAS 唯一 所 需 的 要 素 。 与 这 些 方法 较为 相 
关 的 是 超 网 络 元 学 习 ， 其 能 够 生成 新 网 络 的 权重 ， 因 此 只 需要 对 超 网 络 进行 训练 即 可 ， 
而 无 须 对 那些 新 网 络 架 构 进 行 训练 中 。 这 里 主要 的 区 别 是 ， 权 重 不 是 严格 共享 的 而 是 由 
共享 超 网 络 直 接生 成 (取决 于 采样 的 神经 网 络 结构 ) 的 。 
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一 步 NAS 的 一 个 普遍 限制 是 基于 先 验 定义 的 超 图 会 将 搜索 空间 限制 为 其 子 图 再 者 ， 
在 架构 搜索 中 需要 将 整个 超 图 驻 留 在 GPU 内 存 的 那些 方法 相应 地 限制 为 相对 较 小 的 超 
图 和 搜索 空间 ， 因 此 其 通常 会 与 基于 单元 的 搜索 空间 进行 结合 。 虽 然 基 于 权重 共享 的 方 
法 能 够 充分 降低 NAS 所 需 的 计算 资源 (从 数 千 个 GPU 运 算 天 降低 到 若干 个 GPU 运 算 天 )， 
当 将 网 络 结构 的 采样 分 布 与 一 步 模型 一 起 优化 时 ， 目 前 仍 不 清楚 它们 会 在 搜索 中 引入 什 
么 样 的 偏差 。 举 例 而 言 ， 能 够 比 其 他 偏 置 更 好 地 探索 搜索 空间 特定 部 分 的 初始 偏 置 可 能 
会 导致 一 步 模型 的 权重 能 够 更 好 地 适 配 这 些 神经 网 络 结构 ， 进 而 能 够 增强 搜索 空间 中 该 
部 分 的 搜索 偏 置 。 不 过 这 有 可 能 会 导致 NAS 过 早 收敛 ， 并 且 可 能 是 本 德 等 人 名 使 用 固 
定 采 样 分 布 的 原因 和 优势 之 一 。 整 体 而 言 ， 对 由 不 同性 能 评估 方法 所 引入 的 偏 置 进行 更 
为 系统 性 的 分 析 是 未 来 工作 的 一 个 重点 方向 。 


3.5 未 来 方向 


本 节 主 要 讨论 了 若干 个 NAS 当前 和 未 来 的 研究 方向 。 目 前 而 言 ， 大 部 分 现 有 工作 
集中 在 图 像 分 类 的 NAS 研究 上 。 一 方面 ， 这 为 NAS 提出 了 非常 具有 挑战 性 的 基准 。 因 
为 大 量 人 工 工程 致力 于 在 图 像 分 类 任务 上 设计 出 表现 良好 的 神经 网 络 结 构 ， 而 这 些 网 络 
结构 很 难 被 NAS 超越 。 另 一 方面 ， 通 过 利用 人 工 工程 的 知识 来 定义 一 个 合适 的 搜索 空 
间 相 对 而 言 变 得 较为 简单 。 不 过 这 也 导致 了 NAS 很 难 找到 性 能 显著 超越 已 有 结构 的 神 
经 网 络 结构 ， 因 为 所 找到 的 神经 网 络 结构 与 已 有 神经 网 络 结构 不 存在 根本 性 差异 。 基 于 
此 ， 我 们 认为 非常 有 必要 超越 图 像 分 类 问题 ， 将 NAS 应 用 到 较 少 探索 的 领域 。 在 该 方 
向 上 值得 注意 的 探索 是 将 NAS MAAE RER, ARER, BRKE G9 和 网 络 
压缩 四 领域 ， 而 将 NAS 应 用 于 强化 学 习 、 生 成 对 抗 网 络 、 语 义 分 割 或 者 传感器 融合 领 
域 可 能 是 未 来 的 进一步 探索 方向 。 

另 一 个 方向 是 为 多 任务 问题 E 各 和 多 目标 问题 2 01 it NAS 方法 ， 其 在 将 资 
源 使 用 效率 指标 作为 目标 的 同时 ， 会 同步 考虑 未 见 数 据 上 的 预测 性 能 。 与 之 类 似 ， 将 
NAS 扩展 到 RL/bandit 方 法 上 也 是 值得 探索 的 (如 3.3 节 所 讨论 的 ) ， 可 以 学 习 到 条 件 
相关 于 能 够 编码 任务 属性 和 资源 需求 状态 的 策略 〈 即 可 以 将 网 络 结构 的 设 定 转换 到 上 下 
X bandit 中 ) 。 在 文献 [47] 中 ， 拉 马 尚德 兰 和 勒 遵循 了 类 似 的 方向 ， 将 一 步 NAS 拓展 
到 能 够 根据 实时 任务 或 实例 来 生成 不 同 的 神经 网 络 结构 。 除 此 之 外 ， 将 NAS 应 用 于 搜 
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索 比 对 抗 性 案例 中 更 为 健壮 的 神经 网 络 结构 也 是 近期 较为 有 趣 的 一 个 研究 方向 。 

与 此 较为 相关 的 是 能 够 定义 更 一 般 化 和 更 灵活 的 搜索 空间 的 研究 。 举 例 而 言 ， 虽 然 
基于 单元 的 搜索 空间 能 够 在 不 同 图 像 分 类 任务 之 间 提 供 高 迁移 性 ， 但 是 它 在 较 大 程度 上 
依赖 于 图 像 分 类 任务 中 的 人 类 经 验 ， 且 难以 泛 化 到 那些 硬 编码 层次 化 结构 〈 即 在 链 式 结 
构 中 重复 相同 单元 若干 次 ) 不 适用 的 其 他 领域 (如 语义 分 割 或 目标 检测 ) 。 因 此 ， 一 个 
能 够 表征 和 识别 更 为 一 般 化 层次 结构 的 搜索 空间 ， 会 使 得 NAS 的 应 用 范围 更 为 广泛 ， 
刘 等 59 提出 了 该 方向 的 首 篇 工作 。 再 者 , 共同 搜索 空间 也 是 基于 预先 定义 的 构建 模块 的 ， 
如 不 同 种 类 的 卷 积 和 池 化 ， 但 是 不 支持 识别 该 水 平 上 的 新 构建 模块 。 如 果 能 够 超越 该 限 
制 ，NAS 的 能 力 可 能 会 显著 提升 。 

不 同 NAS 方法 的 比较 是 非常 复杂 的 ， 因 为 神经 网 络 结构 性 能 的 度量 依赖 很 多 因素 ， 
不 仅仅 是 结构 自身 。 虽 然 很 多 作者 给 出 了 在 CIFAR-10 数据 集 上 的 结果 ， 但 是 这 些 实验 
在 搜索 空间 、 计 算 预 算 、 数 据 增 强 、 训 练 过 程 、 正 则 化 及 其 他 因素 上 通常 是 不 同 的 。 举 
例 而 言 ， 对 于 CIFAR-10 数据 集 ， 当 使 用 余弦 退火 学 习 率 规划 中 、 基 于 CutOut 的 数据 
增强 0、 基于 MixUp 的 数据 增强 吧 、 基 于 多 因子 组 合 的 数据 增强 I 及 Shake-Shake 1E 
则 化 项 四 或 基于 既定 路 径 丢 弃 的 正则 化 项 US 时 ， 模 型 性 能 都 会 显著 提高 。 因 此 ， 可 以 
想象 ， 相 比 于 NAS 所 发 现 的 较 好 的 神经 网 络 结构 ， 这 些 因素 的 改进 对 实验 报告 中 性 能 
数字 的 影响 会 更 大 。 基 于 此 ， 我 们 有 理由 认为 公共 基准 的 定义 对 于 公平 比较 不 同 的 NAS 
方法 至 关 重 要 。 文 献 [33] 沿 着 此 方向 迈 出 了 第 一 步 ， 其 主要 为 具有 两 个 隐 层 的 全 连接 神 
经 网 络 的 联合 架构 和 超 参 搜索 定义 了 一 个 基准 。 在 该 基准 中 ，9 个 控制 神经 网 络 结构 和 
优化 /正则 化 项 的 离散 超 参 需 要 被 优化 。 其 中 ， 由 于 所 有 可 能 的 超 参 组 合 都 已 经 被 预 
评估 过 ， 所 以 能 够 降低 待 比较 的 不 同方 法 所 需 的 计算 资源 。 不 过 相 比 于 大 多 数 NAS 方 
法 所 使 用 的 搜索 空间 ， 文 献 [33] 中 的 搜索 空间 显得 过 于 简单 。 另 外 ， 将 NAS 方法 作 
为 整个 开源 AutoML 系统 的 一 部 分 而 非 孤 立地 进行 评估 也 是 一 个 值得 探究 的 方向 ， 即 
Tp wo 中 、 数 据 增强 的 管道 9 与 NAS 一 起 优化 。 

HUA NAS 已 经 取得 了 令 人 印象 深刻 的 性 能 表现 ， 不 过 到 目前 为 止 ， 它 仍然 难以 较 
好 地 解释 为 何 特定 的 体系 结构 能 够 工作 良好 及 独立 运行 中 所 派生 的 神经 网 络 体系 结构 有 
多 相似 。 最 后 ， 识 别 共同 的 功能 域 、 提 供 为 何 这 些 功 能 域 对 于 高 性 能 是 重要 的 解释 ， 以 
及 研究 这 些 功 能 域 在 不 同 问 题 上 的 泛 化 能 力 ， 也 是 值得 我 们 去 探索 的 研究 方向 。 


@ 罗 感谢 埃 斯 特 班 * 瑞 拉 、 阿 尔 伯 * 泽 拉 、 加 布 里 埃 * 班 德 、 肯 尼 思 … 斯坦 利和 托马斯 * 普 


80 自动 机 器 学 习 (AutoML ) : 方法 


系统 与 挑战 


费 伊 尔 对 手稿 早期 版 本 所 给 予 的 有 价值 反馈 。 同 时 ， 感 谢 “欧洲 联盟 地 平 线 2020 研究 
和 创新 项 目 ”为 本 工作 所 提供 的 基金 支持 〈 基 金 编号 : 716721) 。 


[Hi 


[2] 


I3] 


[4] 


[5] 


l6] 


17) 


[8] 


[9] 


[10] 


[11] 


[12] 


[13] 
[14] 


参考 文献 


Ahmed, K., Torresani, L.: Maskconnect: Connectivity learning by gradient descent. In: European 
Conference on Computer Vision (ECCV) (2018). 

Angeline, P.J., Saunders, G.M., Pollack, J.B.: An evolutionary algorithm that constructs recurrent 
neural networks. IEEE transactions on neural networks 5 1, 54-65 (1994). 

Ashok, A., Rhinehart, N., Beainy, F., Kitani, K.M.: N2n learning: Network to network compression 
via policy gradient reinforcement learning. In: International Conference on Learning Representations 
(2018). 

Baker, B., Gupta, O., Naik, N., Raskar, R.: Designing neural network architectures using reinforcement 
learning. In: International Conference on Learning Representations (2017a). 

Baker, B., Gupta, O., Raskar, R., Naik, N.: Accelerating Neural Architecture Search using Performance 
Prediction. In: NIPS Workshop on Meta-Learning (2017b). 

Bender, G., Kindermans, P.J., Zoph, B., Vasudevan, V., Le, Q.: Understanding and simplifying one- 
shot architecture search. In: International Conference on Machine Learning (2018). 

Bergstra, J., Yamins, D., Cox, D.D.: Making a science of model search: Hyperparameter optimization 
in hundreds of dimensions for vision architectures. In: ICML (2013). 

Bergstra, J.S., Bardenet, R., Bengio, Y., Kégl, B.: Algorithms for hyper-parameter optimization. In: 
Shawe-Taylor, J., Zemel, R.S., Bartlett, P.L., Pereira, F., Weinberger, K.Q. (eds.) Advances in Neural 
Information Processing Systems 24. pp. 2546-2554 (2011). 

Brock, A., Lim, T., Ritchie, J.M., Weston, N.: SMASH: one-shot model architecture search through 
hypernetworks. In: NIPS Workshop on Meta-Learning (2017). 

Cai, H., Chen, T., Zhang, W., Yu, Y., Wang, J.: Efficient architecture search by network transformation. 
In: Association for the Advancement of Artificial Intelligence (2018a). 

Cai, H., Yang, J., Zhang, W., Han, S., Yu, Y.: Path-Level Network Transformation for Efficient 
Architecture Search. In: International Conference on Machine Learning (Jun 2018b). 

Chen, T., Goodfellow, I.J., Shlens, J.: Net2net: Accelerating learning via knowledge transfer. In: 
International Conference on Learning Representations (2016). 

Chollet, F.: Xception: Deep learning with depthwise separable convolutions. arXiv:1610.02357 (2016). 


Chrabaszcz, P., Loshchilov, I., Hutter, F.: A downsampled variant of imagenet as an alternative to the 


[15] 


[16] 


[17] 


[18] 


[19] 


[20] 


[21] 


[22] 


[23] 
[24] 


[25] 


[26] 


[27] 


[28] 


[29] 


第 3 章 神经 网 络 架构 搜索 81 


CIFAR datasets. CoRR abs/1707.08819 (2017). 

Chrabaszcz, P., Loshchilov, I., Hutter, F.: Back to basics: Benchmarking canonical evolution strategies 
for playing atari. In: Proceedings of the Twenty-Seventh International Joint Conference on Artificial 
Intelligence, IJCAI-18. pp. 1419-1426. International Joint Conferences on Artificial Intelligence 
Organization (2018). 

Cubuk, E.D., Zoph, B., Mane, D., Vasudevan, V., Le, Q.V.: AutoAugment: Learning Augmentation 
Policies from Data. In: arXiv:1805.09501 (2018). 

Cubuk, E.D., Zoph, B., Schoenholz, S.S., Le, Q.V.: Intriguing Properties of Adversarial Examples. In: 
arXiv:1711.02846 (2017). 

Devries, T., Taylor, G.W.: Improved regularization of convolutional neural networks with cutout. arXiv 
preprint abs/1708.04552 (2017). 

Domhan, T., Springenberg, J.T., Hutter, F.: Speeding up automatic hyperparameter optimization of 
deep neural networks by extrapolation of learning curves. In: Proceedings of the 24" International 
Joint Conference on Artificial Intelligence (IJCAI) (2015). 

Dong, J.D., Cheng, A.C., Juan, D.C., Wei, W., Sun, M.: Dpp-net: Device-aware progressive search for 
pareto-optimal neural architectures. In: European Conference on Computer Vision (2018). 

Elsken, T., Metzen, J.H., Hutter, F.: Simple and Efficient Architecture Search for Convolutional Neural 
Networks. In: NIPS Workshop on Meta-Learning (2017). 

Elsken, T., Metzen, J.H., Hutter, F.: Efficient Multi-objective Neural Architecture Search via 
Lamarckian Evolution. In: International Conference on Learning Representations (2019). 

Elsken, T., Metzen, J.H., Hutter, F.: Neural architecture search: A survey. arXiv:1808.05377 (2018). 
Falkner, S., Klein, A., Hutter, F.: BOHB: Robust and efficient hyperparameter optimization at scale. 
In: Dy, J., Krause, A. (eds.) Proceedings of the 35th International Conference on Machine Learning. 
Proceedings of Machine Learning Research, vol. 80, pp. 1436-1445. PMLR, Stockholmsmässan, 
Stockholm Sweden, 10-15 (2018). 

Floreano, D., Dürr, P., Mattiussi, C.: Neuroevolution: from architectures to learning. Evolutionary 
Intelligence 1(1), 47-62 (2008). 

Gastaldi, X.: Shake-shake regularization. In: International Conference on Learning Representations 
Workshop (2017). 

Goldberg, D.E., Deb, K.: A comparative analysis of selection schemes used in genetic algorithms. In: 
Foundations of Genetic Algorithms. pp. 69-93. Morgan Kaufmann (1991). 

He, K., Zhang, X., Ren, S., Sun, J.: Deep Residual Learning for Image Recognition. In: Conference on 
Computer Vision and Pattern Recognition (2016). 

Huang, G., Liu, Z., Weinberger, K.Q.: Densely Connected Convolutional Networks. In: Conference on 
Computer Vision and Pattern Recognition (2017). 


82 


[30] 


[31] 


[32] 


133] 


[34] 


[35] 


[36] 


[37] 


[38] 


[39] 


[40] 


[41] 


[42] 


[43] 


[44] 


[45] 


自动 机 器 学 习 ( AutoML ) : 方法 、 系 统 与 挑战 


Hutter, F., Hoos, H., Leyton-Brown, K.: Sequential model-based optimization for general algorithm 
configuration. In: LION. pp. 507—523 (2011). 

Kandasamy, K., Neiswanger, W., Schneider, J., Poczos, B., Xing, E.: Neural Architecture Search with 
Bayesian Optimisation and Optimal Transport. arXiv:1802.07191 (2018). 

Klein, A., Falkner, S., Springenberg, J.T., Hutter, F.: Learning curve prediction with Bayesian neural 
networks. In: International Conference on Learning Representations (20172). 

Klein, A., Christiansen, E., Murphy, K., Hutter, F.: Towards reproducible neural architecture and 
hyperparameter search. In: ICML 2018 Workshop on Reproducibility in ML (RML 2018) (2018). 
Klein, A., Falkner, S., Bartels, S., Hennig, P., Hutter, F.: Fast Bayesian Optimization of Machine 
Learning Hyperparameters on Large Datasets. In: Singh, A., Zhu, J. (eds.) Proceedings of the 20th 
International Conference on Artificial Intelligence and Statistics. Proceedings of Machine Learning 
Research, vol. 54, pp. 528-536. PMLR, Fort Lauderdale, FL, USA, 20-22 (2017b). 

Li, L., Jamieson, K., DeSalvo, G., Rostamizadeh, A., Talwalkar, A.: Hyperband: bandit-based 
configuration evaluation for hyperparameter optimization. In: International Conference on Learning 
Representations (2017). 

Liang, J., Meyerson, E., Miikkulainen, R.: Evolutionary Architecture Search For Deep Multitask 
Networks. In: arXiv:1803.03745 (2018). 

Liu, C., Zoph, B., Neumann, M., Shlens, J., Hua, W., Li, L.J., Fei-Fei, L., Yuille, A., Huang, J., 
Murphy, K.: Progressive Neural Architecture Search. In: European Conference on Computer Vision 
(20182). 

Liu, H., Simonyan, K., Vinyals, O., Fernando, C., Kavukcuoglu, K.: Hierarchical Representations for 
Efficient Architecture Search. In: International Conference on Learning Representations (2018b). 

Liu, H., Simonyan, K., Yang, Y.: Darts: Differentiable architecture search. In: International Conference 
on Learning Representations (2019). 

Loshchilov, I., Hutter, F.: Sgdr: Stochastic gradient descent with warm restarts. In: International 
Conference on Learning Representations (2017). 

Mendoza, H., Klein, A., Feurer, M., Springenberg, J., Hutter, F.: Towards Automatically-Tuned Neural 
Networks. In: International Conference on Machine Learning, AutoML Workshop (2016). 

Meyerson, E., Miikkulainen, R.: Pseudo-task Augmentation: From Deep Multitask Learning to 
Intratask Sharing and Back. In: arXiv:1803.03745 (2018). 

Miikkulainen, R., Liang, J., Meyerson, E., Rawal, A., Fink, D., Francon, O., Raju, B., Shahrzad, H., 
Navruzyan, A., Duffy, N., Hodjat, B.: Evolving Deep Neural Networks. In: arXiv:1703.00548 (2017). 
Miller, G., Todd, P., Hedge, S.: Designing neural networks using genetic algorithms. In: 3" 
International Conference on Genetic Algorithms (ICGA'89) (1989). 

Negrinho, R., Gordon, G.: DeepArchitect: Automatically Designing and Training Deep Architectures. 


[46] 


[47] 


[48] 


[49] 


[50] 


[51] 


[52] 


[53] 


[54] 


[55] 


[56] 


[57] 


[58] 


[59] 


[60] 


第 3 章 神经 网 络 架构 搜索 83 


arXiv:1704.08792 (2017). 

Pham, H., Guan, M.Y., Zoph, B., Le, Q.V., Dean, J.: Efficient neural architecture search via parameter 
sharing. In: International Conference on Machine Learning (2018). 

Ramachandran, P., Le, Q.V.: Dynamic Network Architectures. In: AutoML 2018 (ICML workshop) 
(2018). 

Rawal, A., Miikkulainen, R.: From Nodes to Networks: Evolving Recurrent Neural Networks. In: 
arXiv:1803.04439 (2018). 

Real, E., Aggarwal, A., Huang, Y., Le, Q.V.: Aging Evolution for Image Classifier Architecture Search. 
In: AAAI Conference on Artificial Intelligence (2019). 

Real, E., Moore, S., Selle, A., Saxena, S., Suematsu, Y.L., Le, Q.V., Kurakin, A.: Large-scale evolution 
of image classifiers. International Conference on Machine Learning (2017). 

Salimans, T., Ho, J., Chen, X., Sutskever, I.: Evolution strategies as a scalable alternative to 
reinforcement learning. arXiv preprint (2017). 

Saxena, S., Verbeek, J.: Convolutional neural fabrics. In: Lee, D.D., Sugiyama, M., Luxburg, U.V., 
Guyon, I., Garnett, R. (eds.) Advances in Neural Information Processing Systems 29, pp. 4053-4061. 
Curran Associates, Inc. (2016). 

Shahriari, B., Swersky, K., Wang, Z., Adams, R.P., de Freitas, N.: Taking the human out of the loop: A 
review of bayesian optimization. Proceedings of the IEEE 104(1), 148-175 (2016). 

Shin, R., Packer, C., Song, D.: Differentiable neural network architecture search. In: International 
Conference on Learning Representations Workshop (2018). 

Stanley, K.O., D'Ambrosio, D.B., Gauci, J.: A hypercube-based encoding for evolving large- 
scale neural networks. Artif. Life 15(2), 185-212 (Apr 2009), URL https://doi.org/10.1162/ 
artl.2009.15.2.15202. 

Stanley, K.O., Miikkulainen, R.: Evolving neural networks through augmenting topologies. 
Evolutionary Computation 10, 99-127 (2002). 

Such, F.P., Madhavan, V., Conti, E., Lehman, J., Stanley, K.O., Clune, J.: Deep neuroevolution: 
Genetic algorithms are a competitive alternative for training deep neural networks for reinforcement 
learning. arXiv preprint (2017). 

Suganuma, M., Ozay, M., Okatani, T.: Exploiting the potential of standard convolutional autoencoders 
for image restoration by evolutionary search. In: Dy, J., Krause, A. (eds.) Proceedings of the 35th 
International Conference on Machine Learning. Proceedings of Machine Learning Research, vol. 80, 
pp. 4771-4780. PMLR, Stockholmsmässan, Stockholm Sweden, 10-15 (2018). 

Suganuma, M., Shirakawa, S., Nagao, T.: A genetic programming approach to designing convolutional 
neural network architectures. In: Genetic and Evolutionary Computation Conference (2017). 


Swersky, K., Duvenaud, D., Snoek, J., Hutter, F., Osborne, M.: Raiders of the lost architecture: 


84 


[61] 
[62] 


[63] 
[64] 


165] 
166] 
167] 
168] 
169] 


[70] 


Ui 


[72] 


[73] 


[74] 


[75] 


自动 机 器 学 习 ( AutoML ) : 方法 、 系 统 与 挑战 


Kernels for bayesian optimization in conditional parameter spaces. In: NIPS Workshop on Bayesian 
Optimization in Theory and Practice (2013). 

Swersky, K., Snoek, J., Adams, R.P.: Freeze-thaw bayesian optimization (2014). 

Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., Wojna, Z.: Rethinking the Inception Architecture for 
Computer Vision. In: Conference on Computer Vision and Pattern Recognition (2016). 

Wei, T., Wang, C., Chen, C.W.: Modularized morphing of neural networks. arXiv:1701.03281 (2017). 
Wei, T., Wang, C., Rui, Y., Chen, C.W.: Network morphism. In: International Conference on Machine 
Learning (2016). 

Wistuba, M.: Finding Competitive Network Architectures Within a Day Using UCT. In: 
arXiv:1712.07420 (2017). 

Xie, L., Yuille, A.: Genetic CNN. In: International Conference on Computer Vision (2017). 

Yao, X.: Evolving artificial neural networks. Proceedings of the IEEE 87(9), 1423—1447 (Sept 1999). 
Yu, F., Koltun, V.: Multi-scale context aggregation by dilated convolutions (2016). 

Zela, A., Klein, A., Falkner, S., Hutter, F.: Towards automated deep learning: Efficient joint neural 
architecture and hyperparameter search. In: ICML 2018 Workshop on AutoML (AutoML 2018) (2018). 
Zhang, H., Cissé, M., Dauphin, Y.N., Lopez-Paz, D.: mixup: Beyond empirical risk minimization. 
arXiv preprint abs/1710.09412 (2017). 

Zhong, Z., Yan, J., Wu, W., Shao, J., Liu, C.L.: Practical block-wise neural network architecture 
generation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 
pp. 2423-2432 (2018a). 

Zhong, Z., Yang, Z.. Deng, B., Yan, J., Wu, W., Shao, J., Liu, C.L.: Blockqnn: Efficient blockwise 
neural network architecture generation. arXiv preprint (2018b). 

Zhou, Y., Ebrahimi, S., Arik, S., Yu, H., Liu, H., Diamos, G.: Resource-efficient neural architect. In: 
arXiv:1806.07912 (2018). 

Zoph, B., Le, Q.V.: Neural architecture search with reinforcement learning. In: International 
Conference on Learning Representations (2017). 

Zoph, B., Vasudevan, V., Shlens, J., Le, Q.V.: Learning transferable architectures for scalable image 


recognition. In: Conference on Computer Vision and Pattern Recognition (2018). 


第 二 篇 
自动 机 器 学 习 系 统 


第 4 童 Auto-WEKA 


PM AERO, EM RMO, WRK H. 胡 斯 9， 
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概述 : 现 有 机 器 学 习 算法 较 多 ， 考 虑 到 每 个 算法 的 超 参 ， 总 体 上 可 能 的 备 选 方案 数量 是 非常 惊人 
的 。 考 虑 同时 对 学 习 算 法 进行 选择 和 对 其 超 参 进行 设置 的 问题 ， 该 问题 可 以 利用 贝 叶 斯 优化 中 最 
新 创新 的 完全 自动 化 方法 来 求解 。 具 体 而 言 ， 本 章 主 要 考虑 WEKA 标准 分 布 中 所 实现 的 特征 选 
择 技 术 和 所 有 的 机 器 学 习 方法 ， 包 括 2 个 集成 方法 、10 个 元 方法 、28 个 基 学习 器 及 每 个 学 习 器 
相应 的 超 参 设 置 。 在 21 个 来 自 UCI 存 储 库 、KDD'09 竞赛 、MNIST 和 CIFAR-10 变 体 的 数据 集 上 
本 章 所 设计 的 算法 性 能 通常 明显 优 于 使 用 标准 选择 和 超 参 优化 的 方法 。 希 望 这 些 方法 能 够 帮助 非 
专家 用 户 更 为 有 效 地 找到 适合 他 们 自身 应 用 的 机 器 学 习 算法 和 超 参 设置 方法 ， 进 而 能 够 在 实际 任 
务 中 取得 良好 的 算法 性 能 表现 。 


4.1 引 


Ill 


越 来 越 多 的 机 器 学 习 工具 使 用 者 是 非 专 家 用 户 , 而 他 们 所 需要 的 是 现成 的 解决 方案 。 
目前 ， 机 器 学 习 社 区 通过 开源 包 的 形式 (如 WEKA" 和 MLR) 提供 了 广泛 的 高 级 学 
习 算 法 和 特征 选择 方法 ， 为 这 部 分 用 户 提供 了 非常 大 的 帮助 。 这 些 开源 包 需 要 用 户 做 出 
两 种 类 型 的 选择 ， 即 选择 学 习 算 法 和 通过 设 定 超 参 来 对 其 进行 定制 化 (如 果 适 用 ， 超 参 
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也 会 对 特征 选择 进行 控制 ) 。 当 面临 这 些 自由 度 时 ， 让 用 户 从 中 做 出 正确 的 选择 是 非常 
具有 挑战 性 的 。 而 这 会 导致 用 户 基 于 名 气 或 直觉 来 选择 算法 ， 并 且 会 直接 将 超 参 设置 为 
默认 值 。 毫 无 疑问 ， 基 于 这 种 方法 所 获得 的 算法 性 能 会 远 远 低 于 基于 最 佳 方 法 和 最 佳 超 
参 设置 的 算法 性 能 。 

这 为 机 器 学 习 带 来 了 一 个 较为 自然 的 挑战 : 给 定数 据 集 ， 需 要 自动 且 同 时 选择 一 
个 学 习 算 法 和 对 其 超 参 进行 设置 ， 以 优化 实际 性 能 。 这 类 问题 称 为 算法 选择 和 超 参 优 
化 结合 (CASH) 问题， 正式 定义 见 4.3 节 。 有 相当 多 的 已 有 工作 单独 处 理 了 模型 选择 
(如 [1, 6, 8, 9, 11, 24, 25, 33D 和 超 参 优化 〈 如 [3-5, 14, 23, 28, 30D 问题 。 
与 之 相反 的 是 ， 虽 然 CASH 问题 非常 重要 ， 但 是 现 有 文献 中 只 有 很 少 一 部 分 对 CASH 问 
题 的 变 体 进行 了 研究 。 另 外 ， 这 些 工作 为 每 个 算法 都 指定 了 一 个 固定 且 数量 较 少 的 参数 
配置 空间 ， 如 文献 [22] 。 

一 种 可 能 的 解释 是 搜索 学 习 算 法 及 其 相应 超 参 的 组 合 空间 是 极 具 挑战 性 的 。 因 为 响 
应 函数 噪声 较 大 ， 且 搜索 空间 是 高 维 的 ， 除 了 含有 类 别 型 和 连续 性 选择 之 外 ， 还 含有 层 
次 性 依赖 关系 。 举 例 而 言 ， 学 习 算 法 的 超 参 只 有 该 算法 被 选择 后 才 有 意义 ; 同样 ， 集 成 
算法 中 的 算法 选择 只 有 当 集 成 算法 被 确定 后 才 有 意义 。 另 一 个 与 之 相关 的 工作 思路 是 利 
用 数据 集 特 性 〈 如 所 谓 的 特征 点 算法 的 性 能 ) 来 预测 表现 好 的 算法 或 超 参 配置 的 元 学 习 
LFU 2 26 中。 虽然 针对 每 个 新 数据 集 ， 本 章 所 研究 的 CASH 算法 都 会 从 头 开 始 学 习 ， 
不 过 这 些 元 学 习 过 程 可 以 利用 之 前 数据 集 的 信息 。 需 要 注意 的 是 ， 这 些 信息 可 能 并 不 总 
是 有 用 。 

后 续 的 研究 工作 证 明了 CASH 问题 可 以 被 视 为 一 个 单一 的 层次 化 超 参 优化 问题 ， 
甚至 算法 选择 本 身 也 可 以 看 作 一 个 超 参 。 此 外 ， 基 于 该 问题 的 形式 化 方式 ， 近 期 的 贝 叶 
斯 优化 方法 可 以 在 合理 的 时 间 内 以 最 小 的 人 力 成 本 取得 高 质量 的 结果 。 本 章 结构 如 下 : 
在 4.2 节 介 绍 完 一 些 准 备 工作 之 后 ，4.3 节 对 CASH 问题 进行 了 定义 并 给 出 了 若干 个 相 
应 的 解决 方法 。 随 后 ，4.4 节 对 一 个 开源 包 WEKA 涵盖 了 广泛 学 习 器 和 特征 选择 器 的 具 
fk CASH 问题 进行 定义 。 最 后 ，4.5 节 展示 了 基于 算法 和 超 参 组 合 空间 的 搜索 能 够 比 标 
准 的 算法 选择 和 超 参 优化 方法 生成 表现 更 好 的 模型 。 更 具体 一 点 ， 近 期 贝 叶 斯 优化 方法 
TPE"! 和 SMAC (9 能 够 经 常 找到 表现 优 于 已 有 基准 方法 的 算法 与 超 参 组 合 ， 特 别 是 在 大 
型 数据 集 上 。 

另外 ， 本 章 的 内 容 主要 基于 之 前 发 表 的 两 篇 文献 ， 分 别 是 发 表 在 KDD 2013 的 文 
献 [31] 和 发 表 在 JMLR 的 文献 [20] 。 
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形式 化 ， 对 函数 三 蒜 F>J 了 进行 学 习 ， 其 中 ，J 了 要 么 是 有 限 的 〈 针 对 分 类 任务 ) ， 要 
么 是 连续 的 〈 针 对 回归 任务 ) 。 而 学 习 算 法 4 主要 是 将 训练 数据 d; - (x, y) eX x Y f — 
个 集合 {d d,d, 映射 到 该 函数 上 ， 该 函数 通常 表示 成 模型 参数 的 向 量 。 大 多 数学 习 
算法 4 会 进一步 揭示 超 参 XeA4， 而 这 会 改变 学 习 算 法 4 自身 的 工作 方式 。 举 例 而 言 ， 
超 参 可 以 用 来 表示 描述 长 度 惩罚 项 、 隐 藏 层 神经 元 的 个 数 ， 以 及 决策 树叶 子 节点 必须 含 
有 的 数据 点 个 数 以 支持 分 割 等 。 通 常 ， 这 些 超 参 会 在 一 个 使 用 交叉 验证 来 评估 每 个 超 参 
配置 性 能 的 “外 循环 ”中 进行 优化 。 


4.2.1 模型 选择 


给 定 学 习 算法 的 集合 4 MAREA ER D AEB D = (Gn y) Qe 32) (Gd, b> BE 
型 选择 的 目标 是 找到 具有 最 佳 泛 化 性 能 的 算法 4 eA。 泛 化 性 能 的 具体 评估 方式 为 ， 首 
先 将 数据 集 D 分 割 成 两 个 不 相交 的 训练 数据 集 DO, 和 验证 数据 集 DW,， 随 后 将 算法 4 
应 用 到 数据 集 DO 上 学 习 函 数 太 ， 最 后 在 验证 数据 集 PC 上 对 这 些 函 数 的 预测 性 能 进行 
评估 。 基 于 此 ， 可 以 将 模型 选择 问题 重 写成 

大 
Ae argmin Y (A.D). n.) 


Rp, c( 4, DO, DO) 为 算法 4 在 数据 集 DQ, 上 进行 训练 和 在 数据 集 DO, 上 进行 评估 
时 所 获得 的 损失 值 。 

另外 ， 本 书 采 用 的 是 上 折 交 叉 验证 的 方式 O, BEVARER k DL, DO, 
DW HXFTSAi-L2,-k, UMAR DO, 都 被 设置 为 DO, =DD. 9 


4.2.2 ESE 


优化 给 定 学 习 算 法 4 的 超 参 问 题 AeA) 概念 上 类 似 于 模型 选择 。 一 些 核心 区 别 
主要 体现 在 超 参 通常 是 连续 的 ， 超 参 空间 通常 是 高 维 的 ， 以 及 可 以 利用 不 同 超 参 设置 


外 ”需要 注意 的 是 ， 也 有 其 他 的 泛 化 性 能 评估 方法 ， 如 基于 重复 随机 下 采样 验证 "9 也 能 取得 相似 的 结果 。 
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如 eA 结 构 上 的 关联 性 。 给 定 n 个 域 为 4,…,4, 的 超 参数 44,…,4， 则 超 参 空 间 4 为 这 
些 域 的 又 积 的 一 个 子 集 : Ac hx…xA。 该 子 集 通 常 是 较为 严格 的 ， 如 某 个 超 参 的 一 些 
设置 使 得 其 他 超 参 处 于 非 活 动 状 态 。 举 例 而 言 ， 如 果 网 络 的 深度 被 设置 为 1 或 2， 决 定 
深度 信念 网 络 第 三 层 细节 的 参数 就 是 不 相关 的 。 与 之 类 似 ， 如 果 使 用 不 同 的 核 函数 ， 支 
持 向 量 机 的 多 项 式 核 函数 的 参数 也 是 不 相关 的 。 

更 为 正式 地 ， 参 照 文献 [17]， 当 只 有 超 参 X 从 给 定 集合 侯 (7) G4 取 值 时 ，44 才 会 
被 激活 ， 则 定义 超 参 罗 取决 于 超 参 4, 。 其 中 ， 超 参 LAES 的 父 参数 。 事 实 上 ， 条 件 
型 超 参 又 可 以 是 其 他 条 件 型 超 参 的 父 参 数 ， 进 而 生成 树 形 结构 空间 1 或 者 在 某 些 情况 下 
会 生成 一 个 有 向 无 环 图 (DAG) (mT。 进 一 步 地 ， 给 定 该 结构 化 空间 4，( 层 次 化 〉 超 参 
优化 问题 可 以 被 重 写成 


k F 
A cargmin y £(4,. nf) ,DO ) 


train * ^ valid 
eA iz 


4.3 算法 选择 与 超 参 优化 结合 ( CASH ) 


给 定 算法 集合 A - (49, 40) 及 其 相关 的 超 参 空间 A, 4， 定义 算法 选择 和 
超 参 优化 的 结合 问题 (CASH) 为 
4. € argmin, C(A. DD) (4.1) 
需要 注意 的 是 ，CASH 问题 可 以 被 重新 定义 成 一 个 具有 参数 空间 4= AO UUA UA.) 
的 组 合 型 层次 化 超 参 优化 问题 ， 其 中 心 是 一 个 在 算法 40,…,40 之 间 进行 选择 的 新 的 根 
级 别 超 参 数 。 另 外 ， 每 个 子 空间 4 的 根 级 别 参数 都 取决 于 由 旋 所 实例 化 的 算法 妇 。 
原则 上 ， 可 以 有 多 种 方法 来 求解 问题 (4.1) 。 其 中 一 种 较为 有 潜力 的 方法 是 贝 叶 斯 
优化 方法 mm， 尤 其 是 基于 顺序 模型 的 优化 (SMBO) na。SMBO 是 一 个 通用 的 随机 优化 
框架 ， 能 够 处 理 类 别 型 超 参 和 条 件 型 超 参 ， 也 能 够 利用 由 条 件 参数 所 生成 的 层次 结构 ， 
其 主要 步骤 如 算法 1 所 示 。 具 体 而 言 ，SMBO 首先 会 构建 一 个 模型 ML ， 该 模型 能 够 刻 
画 出 损失 函数 人 在 超 参 设置 4 的 依赖 性 (算法 1 的 第 1 行 ) 。 随 后 ， 和 迭代 运行 以 下 步骤 ; 
采用 人 来 决定 下 一 个 待 评估 的 有 潜力 的 候选 超 参 配置 2 (算法 1 的 第 3 行 》， 评 估 超 
参 配置 7 的 损失 c (算法 1 的 第 4 行 ) ， 用 所 获得 的 新 数据 点 (2,c) 来 更 新 模型 ML ORE 
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法 1 的 5、6 行 ) 。 


算法 1: SMBO 
1: 初始 化 模型 M; Heo 
2: while 优化 的 时 间 预 算 未 使 用 完 do 
3: A€ MP ERE ROSE 
4: dEc-c(A4. DO, DO) 
58: HeHU{(A,c)} 
6 AE H BM, 
7: end while 
8: return H PAAR c fii a 

为 了 使 模型 M, 选 出 下 一 个 超 参 配置 1，SMBO 使 用 了 采集 函数 aw A Ro KR 
数 采 用 模型 M, 在 任意 超 参 配 置 e4 的 预测 分 布 ， 以 量化 《以 封闭 的 形式 ) 2 信息 的 有 
用 程度 。 随 后 ，SMBO 只 需 在 4 上 最 大 化 此 采集 函数 ， 进 而 选择 出 下 一 个 待 评估 的 最 为 
有 用 的 配置 2。 目 前 有 几 个 研究 得 较为 深入 的 采集 函数 U9 27 玉 ， 所 有 这 些 采 集 函 数 都 
致力 于 自动 地 平衡 利用 《〈 在 已 知性 能 较 好 的 区 域 中 局 部 地 优化 超 参 数 ) 和 探索 (在 一 个 
相对 未 被 探索 的 空间 区 域 中 尝试 超 参 数 ) ， 以 避免 过 早 地 收敛 。 在 该 工作 中 ， 会 尽 可 能 
地 最 大 化 一 个 给 定 的 损失 ci 的 正 向 期 望 提 升 CED 上 四。 另外， 用 c(2) 来 表示 超 参 配置 
4 的 损失 值 。 那 么 ， 损 失 ci 的 正 向 期 望 提升 可 以 被 定义 成 


I, „ (4) =max{c,,, —¢(2),0} 
需要 注意 的 是 ，c(4) 是 未 知 的 。 不 过 , 可 以 计算 出 c(2) 在 当前 模型 M, EAEE: 
Bu le, (2) = J max {Cm - 60} Pae (ch)de (4.2) 
本 节 对 SMBO 方法 做 了 一 个 简要 回顾 。 


基于 顺序 模型 的 算法 配置 (SMAC ) 


基于 顺序 模型 的 算法 配置 SMAC) "9 可 以 支持 各 种 能 够 刻画 损失 函数 c 在 超 参 4 
上 依赖 性 的 模型 P(cJ) ， 包 括 近 似 高 斯 过 程 和 随机 森林 。 本 章 主要 采用 随机 森林 模型 ， 
因为 它 在 处 理 离散 数据 和 高 维 输入 数据 上 往往 表现 良好 。 在 处 理 模型 训练 和 预测 过 程 中 
的 条 件 参数 时 ，SMAC 主要 通过 将 中 非 激活 条 件 参 数 实 例 化 为 默认 值 ， 进 而 能 够 支持 
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单个 决策 树 含 有 “ 超 参合 是 否 是 激活 的 ”这 类 划分 ， 使 得 它们 能 够 专注 于 激活 态 的 超 参 。 
虽然 随机 森林 通常 不 被 视 为 概率 模型 ，SMAC 依然 会 获得 p(c) 的 预测 均值 /和 方差 
oi ， 并 将 其 作为 针对 2 单个 树 的 预测 值 的 频率 估计 值 。 随 后 ， 将 pw (ch) 建 模 成 一 个 高 
斯 分 布 N (1.0) M 

SMAC 使 用 式 〈4.2) 所 定义 的 期 望 提升 标准 ， 将 ci 实例 化 成 目前 所 评估 出 的 最 好 
超 参 配置 的 损失 值 。 在 SMAC 的 预测 分 布 pwc (c2) - Nr (u,,02) 下， 该 期 望 的 闭 式 表达 
式 为 


E, [Ln (= [CD)+e(O] 
其 中 ， p= mH, gp 和 DAH 4 b HE TE s AE I BE BAB BA f ERU 19。 
2 


SMAC 是 为 有 噪声 的 函数 评估 的 鲁 棒 性 优化 而 设计 的 ， 因 此 实现 了 特殊 的 机 制 来 跟 
踪 已 知 的 最 好 配置 ， 并 且 能 够 确保 该 配置 性 能 评估 的 高 可 信和 度 。 这 种 能 够 对 抗 有 噪声 函数 
评估 的 鲁 棒 性 也 可 用 于 算法 选择 和 超 参 优 化 结合 的 问题 中 ， 因 为 式 AD 所 表示 的 待 优 
化 函数 是 一 组 损失 项 的 均值 。 其 中 ， 每 个 损失 项 对 应 构建 于 训练 集 的 一 对 DO, 和 D0 。 
SMAC 的 一 个 核心 思想 是 通过 每 次 评估 一 个 损失 项 而 逐渐 获得 该 均值 的 更 好 估计 ， 进 而 
能 够 平衡 准确 度 和 计算 成 本 。 为 了 获得 一 个 能 够 成 为 新 在 任 者 的 新 配置 ， 必 须 确保 其 在 
每 轮 比较 中 都 能 够 超越 前 一 位 任职 者 : 只 考虑 一 次 折合 、 两 次 折合 等 ， 直 到 达到 之 前 用 
来 评估 在 任 者 的 总 折合 次 数 为 止 。 另 外 ， 每 当 现 任 者 在 该 比较 中 存活 下 来 时 ， 就 会 在 一 
个 新 的 折合 上 对 其 进行 评估 ， 直 至 达到 可 用 的 总 折合 次 数 为 止 ， 这 意味 着 用 于 评估 现任 
者 的 折合 次 数 会 随 着 时 间 逐 渐 增多 。 因 此 ， 一 个 表现 差 的 配置 可 能 在 一 个 折 县 上 评估 之 
后 就 会 被 丢弃 。 

最 后 ，SMAC 实现 了 一 个 多 样 化 机 制 ， 该 机 制 一 方面 能 够 在 即使 模型 被 误导 的 情况 
下 也 能 取得 稳健 的 性 能 ， 另 一 方面 能 够 探索 空间 的 新 区 域 。 间 隔 性 的 配置 是 以 随机 的 方 
式 进 行 选择 的 。 基 于 刚刚 介绍 的 评估 过 程 ， 这 里 所 需要 的 开销 比 我 们 可 能 想到 的 要 少 。 


4.4 Auto-WEKA 


为 了 验证 求解 CASH 问题 的 自动 化 方法 的 可 行 性 ， 我 们 建立 了 Auto-WEKA， 其 在 
WEKA 机 器 学 习 包 中 实现 了 求解 该 问题 的 学 习 器 和 特征 选择 器 中。 需要 注意 的 是 ， 虽 
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然 我 们 在 WEKA 中 主要 关注 分 类 算法 ,但 是 将 我 们 的 方法 扩展 到 其 他 任务 是 非常 容易 的 。 
除 此 之 外 ， 另 一 个 使 用 相同 基础 技术 的 成 功 系 统 是 Auto-sklearn!!. 

图 4.1 展示 了 所 有 的 可 以 支持 的 学 习 算法 、 特 征 选 择 器 及 对 应 的 超 参 数量 。 元 方法 
的 输入 为 单个 基 分 类 器 及 其 参数 ， 而 集成 方法 的 输入 可 以 是 任意 数量 的 基 学 习 器 。 具 
体 而 言 ， 允 许 元 方法 一 次 使 用 1 个 具有 任意 超 参 设置 的 基 学 习 器 ， 人 允许 集成 方法 一 次 最 
多 使 用 5 个 具有 任意 超 参 设置 的 学 习 器 。 由 于 各 种 各 样 的 原因 (如 分 类 器 难以 应 对 缺失 
数据 ) ， 并 非 所 有 学 习 器 都 适用 于 所 有 的 数据 集 。 对 于 一 个 给 定 的 数据 集 ， 所 实现 的 
Auto-WEKA 能 够 自动 地 只 考虑 适用 的 学 习 器 子 集 。 另 外 ， 在 建立 模型 之 前 ， 特 征 选择 
会 作为 预 处 理 阶 段 而 运行 。 


基 学 习 器 
BayesNet 2 NaiveBayes 2 
DecisionStump* 0 NaiveBayesMultinomial 0 
DecisionTable* 4 OneR 1 
GaussianProcesses* 10 PART 4 
IBk* 5 RandomForest 7 
J48 9 RandomTree* 11 
JRip 4 REPTree* 6 
KStar* 3 SGD* 5 
LinearRegression* 3 SimpleLinearRegression* 0 
LMT 9 SimpleLogistic 5 
Logistic 1 SMO 1l 
MSP 4 SMOreg* 13 
M$Rules 4 VotedPerceptron 3 
MultilayerPerceptron* 8 ZeroR* 0 
集成 方法 
Stagckin 2 Vote 2 
元 方法 
LWL 5: Bagging 4 
AdaBoostM1 6 RandomCommittee 2 
AdditiveRegression 4 
AttributeSelectedClassifier 2 RandomSubSpace 3 
特征 选择 方法 
BestFirst 2 GreedyStepwise 4 


图 4.1 Auto-WEKA 所 支持 的 学 习 器 和 方法 及 其 对 应 的 超 参数 量 |4 
Ed 每 个 学 习 器 都 支持 分 类 任务 ， 而 标 星 的 学 习 器 也 支持 回归 任务 。 
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图 4.1 所 示 算 法 的 超 参 取 值 范围 较为 广泛 ， 可 以 从 连续 区 间 、 整 数 范围 和 其 他 离散 
集合 中 进行 取 值 。 基 于 每 个 数值 参数 的 语义 ， 其 与 一 个 均匀 先 验 或 对 数 均匀 先 验 进行 关 
联 。 举 例 而 言 ， 对 于 岭 回归 惩罚 项 会 设置 一 个 对 数 均匀 先 验 ， 而 对 于 随机 森林 中 树 的 最 
大 深度 会 设置 一 个 均匀 先 验 。Auto-WEKA 可 直接 使 用 连续 超 参 的 值 ， 直 至 机 器 的 精度 
为 止 。 需 要 强调 的 是 ， 组 合 型 超 参 空间 会 远 远 大 于 基 学 习 器 超 参 空间 的 简单 结合 ， 因 为 
集成 方法 最 多 只 支持 5 个 独立 的 基 学 习 器 。 另 外 ， 元 方法 、 集 成 方法 和 特征 选择 方法 都 
在 一 定 程度 上 增加 了 Auto-WEKA 超 参 空间 的 整体 规模 。 

在 Auto-WEKA 中 ， 主 要 使 用 SMAC 优化 器 来 求解 CASH 问题 ， 大 家 可 以 直接 通 
过 WEKA 包 管 理 器 来 访问 和 使 用 Auto-WEKA。 另 外 ，Auto-WEKA 的 源 代码 网 址 为 
https://github.com/automl/autoweka, E 77 Ji H Fd HE 73 http://www.cs.ubc.ca/labs/beta/Projects/ 
autoweka。 对 于 本 章 所 介绍 的 相关 实验 ， 主 要 采用 的 版 本 是 Auto-WEKA v0.5. 535b. 
最 新 版 本 的 实验 结果 都 是 相似 的 ， 考 虑 到 计算 成 本 太 大 ， 本 章 没有 完全 复 现 整套 实验 。 


4.5 实验 评估 


在 21 个 重要 的 基准 数据 集 ( 见 表 4.1) 上 对 Auto-WEKA 进行 评估 : 其 中 ，15 个 
数据 集 来 自 UCI Æ "3, Convex, MNIST Basic 和 Rot. MNIST+BI 来 自 参考 文献 [5]; 
KDD09-Appentency 来 自 KDD CUP'09 的 关系 预测 任务 ， 还 有 两 个 是 CIFAR-10 图 像 分 
类 任务 的 两 个 版 本 路， 其 中 CIFAR-10-Small 是 CIFAR-10 的 子 集 ， 只 使 用 了 前 面 的 
10000 个 训练 样本 ， 而 非 完整 的 50 000 个 。 需 要 注意 的 是 ， 在 实验 评估 中 ， 主 要 专注 于 
分 类 任务 。 对 于 已 划分 好 训练 集 和 测试 集 的 数据 集 ， 直 接 采用 已 有 的 划分 方式 ; 否则， 
会 以 随机 的 方式 将 数据 集 划分 成 7096 的 训练 数据 和 30% 的 测试 数据 。 另 外 ， 会 保留 所 
有 优化 方法 的 测试 数据 ， 其 只 在 离线 分 析 阶 段 被 使 用 一 次 ， 以 对 各 种 优化 方法 所 找到 的 
模型 进行 评估 。 

对 于 每 个 数据 集 ， 在 给 定 的 总 时 间 预 算 (30h) 下 ， 为 每 个 超 参 优化 方法 运行 一 次 
Auto-WEKA。 另 外 ， 对 于 每 个 方法 ， 用 不 同 的 随机 种 子 运行 25 次 该 过 程 。 随 后 ， 为 了 
仿真 典型 的 工作 站 并 行 化 机 制 ， 使 用 自 采 样 方法 来 重复 选择 4 次 随机 运行 ， 并 记录 具有 
最 佳 交 叉 验 证 性 能 的 那 次 运行 的 表现 。 
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表 4.1 使 用 的 数据 集 

性 数量 

Dexter 20 000 
GermanCredit 13 

Dorothea 100 000 

Yeast 


Amazon 


Secom 


Semeion 
Car 519 
Madelon 780 
KR-vs-KP 959 


Wine Quality 0 


MNIST Basic 0 
Rot. MNIST + BI 0 


早期 的 实验 中 会 出 现 一 种 情况 ， 即 Auto-WEKA 的 SMBO 方法 会 选 出 一 些 具 有 极 
佳 训练 性 能 但 泛 化 性 能 很 弱 的 超 参数 。 为 了 使 Auto-WEKA 具备 检测 此 过 拟 合 的 能 力 ， 
将 训练 集 划分 成 两 个 子 集 : 其 中 的 70% 用 于 SMBO 方法 内 部 ， 另 外 的 30% 作为 SMBO 
方法 完成 之 后 才 会 被 使 用 的 验证 数据 。 


4.5.1 对 比方 法 


Auto-WEKA 绅 在 协助 非 专家 型 的 机 器 学 习 技术 使 用 者 。 这 类 用 户 通常 会 采用 的 
种 方法 是 ， 对 于 每 种 未 改变 超 参 的 技术 在 训练 集 上 执行 10 折 交 叉 验 证 ， 然 后 选择 在 所 
有 交叉 数据 上 具有 最 小 误 分 类 误差 的 分 类 器 。 将 这 种 方法 应 用 到 WEKA 学 习 器 的 集合 中 ， 
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记 为 Ex-Def。 需 要 注意 的 是 , 对 于 采用 默认 超 参 的 WEKA 而 言 , 这 是 最 好 的 选择 。 表 4.2 
给 出 了 10 折 交叉 验证 和 测试 数据 上 的 性 能 结果 。 其 中 ，Ex-Def 和 网 格 搜 索 是 确定 性 的 
随机 搜索 的 时 间 预 算 为 120 CPU 小 时 。 对 于 Auto-WEKA， 总 共 执 行 25 轮 运算 ， 每 轮 
运算 的 时 间 预 算 为 30h。 另 外 ， 具 体 的 实验 结果 为 模拟 4 个 并 行 运算 的 100 000 KAR 
样 的 平均 损失 。 测 试 损 失 〈 误 分 类 率 ) 的 计算 方法 为 ， 首 先 在 整个 70% 训练 数据 上 对 选 
出 的 模型 / 超 参 进行 训练 ， 然 后 计算 之 前 未 使 用 的 30% 测试 数据 的 准确 度 ， 即 测试 损失 。 
表 4.2 中 的 粗 体 部 分 表示 一 组 对 比方 法 中 具有 统计 意义 上 的 最 小 误差 。 

对 于 每 个 数据 集 ， 表 4.2 的 第 二 列 和 第 三 列 展示 了 给 定 所 有 训练 数据 及 测试 集 评估 
后 的 默认 学 习 器 的 最 佳 和 最 差 “Oracle 性 能 ”。 基 于 实验 结果 可 以 发 现 ， 最 佳 学 习 器 
和 最 差 学 习 器 之 间 的 性 能 差距 非常 大 ， 如 Dorothea 数据 集 ， 误 分 类 率 分 别 为 4.93%、 
99.24%。 这 表明 算法 选择 的 某 些 方式 对 于 获得 良好 的 性 能 表现 是 非常 关键 的 。 

另外 一 种 比较 强 的 对 比方 法 是 除了 选择 学 习 器 之 外 ， 基 于 一 个 预定 义 的 集合 优化 学 习 
器 的 超 参 数 。 更 准确 地 说 ， 该 对 比方 法 为 每 个 基 学 习 器 都 在 超 参 设置 的 网 格 上 执行 彻底 的 
搜索 ， 其 中 会 将 数值 参数 离散 成 3 个 点 。 该 对 比方 法 称 为 网 格 搜索 ， 需 要 注意 的 是 ， 作 
为 算法 和 超 参 设 置 联合 空间 中 的 一 种 优化 方法 ， 它 是 一 种 简单 的 CASH 算法 。 然 而 ， 该 
对 比方 法 的 计算 成 本 较为 巨大 ， 使 得 它 难 以 在 大 多 数 实际 应 用 中 得 以 使 用 ， 如 Gisette、 
Convex, MNIST, Rot MNIST + BI 和 两 个 CIFAR 数据 集 , 其 都 需要 超过 10 000 CPU 小 时 。 
与 之 相反 ，Auto-WEKA 只 需要 120 CPU 小 时 。 

表 4.2 的 第 四 列 和 第 五 列 展示 了 基于 网 格 搜索 的 分 类 器 在 测试 集 上 的 最 佳 和 最 差 
Oracle 性 能 。 与 使 用 Ex-Def 的 默认 性 能 相 比 ， 在 大 多 数 情况 下 ， 甚 至 是 WEKA 的 最 佳 
默认 算法 的 性 能 都 可 以 通过 选择 较 好 的 超 参 而 得 以 提升 。 有 的 时 候 ， 算 法 性 能 的 提升 效 
果 会 非常 显著 ,如 在 CIFAR-10-small 任 务 中 , 相 比 于 Ex-Def, 网 格 搜索 减少 了 13% 的 误差 。 

之 前 的 工作 日 己 表明 ， 在 保持 总 时 间 预 算 不 变 的 情况 下 ， 网 格 搜 索 在 超 参 空间 上 的 
表现 性 能 优 于 随机 搜索 。 本 次 实验 的 最 后 一 个 对 比方 法 是 基于 随机 搜索 ， 即 采用 随机 采 
样 的 方式 选择 算法 和 超 参 ， 然 后 在 10 个 交叉 验证 折 琶 上 计算 它们 的 性 能 直到 时 间 预 算 
耗 尽 为 止 。 对 于 每 个 数据 集 ， 首 先 使 用 750 CPU 小 时 来 计算 基于 随机 采样 的 超 参 和 算法 
组 合 的 交叉 验证 性 能 。 随 后 ， 通 过 从 这 些 结果 中 以 无 蔡 换 的 方式 采样 组 合 来 模拟 随机 搜 
索 的 运行 〈 该 过 程 消耗 120 CPU 小 时 ) ， 并 返回 具有 最 佳 性 能 的 采样 组 合 。 
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4.5.2 ”交叉 验证 性 能 


表 4.2 的 中 间 部 分 给 出 了 本 次 实验 的 主要 结果 。 首 先 ， 在 17/21 个 数据 集 上 ， 所 有 
基 分 类 器 超 参 上 的 网 格 搜索 都 获得 了 比 Ex-Def 更 好 的 结果 ， 这 表明 要 想 获得 好 的 表现 
性 能 ， 不 仅 需要 选择 合适 的 算法 ， 而 且 需 要 设置 合适 的 算法 超 参 。 不 过 ， 需 要 注意 的 是 ， 
网 格 搜索 需要 非常 多 的 时 间 预 算 〈 通 常 而 言 ， 每 个 数据 集 都 需要 超过 10 000 CPU 小 时 ， 
整体 上 超过 了 10 CPU 年 ) ， 这 意味 着 网 格 搜索 在 实际 工作 中 通常 是 不 可 用 的 。 

与 之 相反 ， 其 他 方法 在 每 个 数据 集 上 通常 只 需 4X30 CPU 小 时 。 而 且 ， 它 们 在 
14/21 个 数据 集 上 都 取得 了 比 网 格 搜索 更 佳 的 表现 性 能 。 另 外 ， 随 机 搜索 在 9/21 个 数据 
集 上 的 表现 性 能 优 于 网 格 搜索 ， 突 出 了 即使 使 用 了 更 多 时 间 预 算 的 穷尽 网 格 搜索 也 一 定 
总 是 正确 的 〈 即 总 是 取得 好 的 表现 性 能 ) 。 需 要 注意 的 是 ， 有 时 相 比 于 对 比方 法 ，Auto- 
WEKA 的 性 能 改进 效果 是 非常 显著 的 ， 如 在 6/21 个 数据 集 上 ，Auto-WEKA 带 来 的 交叉 
验证 损失 (本 实验 中 指 误 分 类 率 ) 相对 减少 超过 1096. 


4.5.3 测试 性 能 


上 文 给 出 的 结果 表明 Auto-WEKA 能 够 高 效 地 优化 给 定 的 目标 函数 ， 然 而 这 还 不 足 
以 证 明 它 能 够 拟 合 具有 良好 泛 化 能 力 的 模型 。 随 着 机 器 学 习 算 法 超 参 数量 的 增加 ， 其 过 
拟 合 的 可 能 性 也 随 之 增加 。 虽 然 交叉 验证 能 够 显著 提高 Auto-WEKA 抵抗 过 拟 合 的 鲁 棒 
TE, 但 是 它 的 超 参 空间 远 远大 于 标准 分 类 算法 的 超 参 空间 , 使 得 仔细 研究 过 拟 合 是 否 (或 
多 大 程度 上 ) 会 造成 问题 显得 尤为 重要 。 

为 了 评估 模型 的 泛 化 能 力 ， 首 先 采用 类 似 于 之 前 的 方式 运行 Auto-WEKA 以 确定 算 
法 和 超 参 设置 的 组 合 4, ， 并 在 整个 训练 集 上 训练 4, 。 随 后 ， 在 测试 集 上 评估 所 得 到 的 模 
型 。 其 中 ， 表 4.2 的 右 侧 部 分 给 出 了 所 有 方法 的 测试 性 能 。 

总 的 来 说 ， 测 试 性 能 的 趋势 与 交叉 验证 性 能 的 趋势 大 致 相同 : Auto-WEKA 的 性 能 
优 于 对 比方 法 ， 网 格 搜索 和 随机 搜索 的 性 能 优 于 Ex-Def。 不 过 ， 测 试 性 能 的 差异 没有 交 
叉 验证 性 能 差异 那么 明显 : 网 络 搜索 只 在 15/21 个 数据 集 上 产生 优 于 Ex-Def 的 结果 ， 而 
随机 搜索 只 在 7/21 个 数据 集 上 优 于 网 格 搜索 。 需 要 注意 的 是 ， 在 12/13 个 最 大 的 数据 集 
上 ，Auto-WEKA 都 优 于 对 比方 法 ， 主 要 原因 在 于 数据 集 的 规模 能 够 降低 过 拟 合 的 风险 。 
有 时 ， 相 比 于 其 他 方法 ，Auto-WEKA 的 性 能 提升 效果 非常 明显 。 例 如 ， 在 3/21 个 数据 


Auto-WEKA 97 


第 4 章 


00 06 


00 06 


Orvo 


8 €OL'L} 0 ISL T 0 0F2 FS 


8 €16°9 


Aouaquaddy 
-60GQX 


LSIOO | f If00 


V 220'0| € £00 | T9800 | 82€00 |Z 02868 


Y 18°02 


opus 


88°88 


Id + LSINIA 1021 


94 88 


seg LSINN 


00°06 


Tews -0T-3 VAIO 


te'e c9'v orc 


eV VI 


T9 8 
LE'O 
ANTA 


S6'EE | IPE | 9078 


Le PI 99°FT 


88PL | cre 
890 STI 
6272 | SUI 


07 0 100 160 
80'S 0I 9 629 
L08 £08 608 


88 66 


95 人 L 


00 05 


£2266 


Pp'82 


XeAuoD 
easID 
ULJ0J9AEA, 
AyenQ) aum 
ouopeqy 
dE SA SDI 
uojapeyy 


uUOJaUIIS 


uozewy 


68°69 


98 98 


66 89 


00 0 


ISLA 


?2 66 


v9 


Ve 66 


£6 rv 


Badlol0G[ 


00 89 


00 92 


00 88 


00 92 


yparguewag 


88 89 


688 


8/ 25 


8L1 


l9jXe(] 


za 


B 


zu 


Bu 


E BEY hel 


Jeq:x4 


(96) WREN 


(96) SESERUSEX 2E 1E OL 
EFAS AH EEG T SS ik OT KE OL 


( % ) 34% 219240 


tye 


SERE 


98 自动 机 器 学 习 ( AutoML ) : 方法 、 系 统 与 挑战 


集 上 ，Auto-WEKA 相对 减少 了 超过 16% 的 测试 误 分 类 率 。 

正如 前 面 所 说 ， 在 交叉 验证 性 能 优化 过 程 中 ，Auto-WEKA 只 使 用 了 70% 的 训练 集 ， 
剩余 的 3096 用 来 评估 过 拟 合 的 风险 。 在 任何 时 间 点 上 ，Auto-WEKA 中 的 SMBO 方法 都 
会 跟踪 当前 表现 最 好 的 超 参 配 置 〈 称 为 现任 者 ) ， 即 到 目前 为 止 具有 最 小 的 交叉 验证 误 
分 类 率 。 在 完成 SMBO 过 程 之 后 ，Auto-WEKA 会 从 中 提取 这 些 现 任 者 的 轨迹 ， 并 在 保 
留 的 30% 验证 数据 上 计算 这 些 现 任 者 的 泛 化 性 能 。 随 后 ， 计 算 训练 性 能 〈 在 交叉 验证 数 
据 集 上 通过 SMBO 方法 评估 所 得 ) 和 泛 化 性 能 序列 之 间 的 斯 皮尔 曼 等 级 系数 。 
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动 的 工具 来 解决 。 这 是 通过 近期 的 贝 叶 斯 优化 技术 所 实现 的 ， 该 技术 主要 通过 和 迭代 式 地 
构建 算法 / 超 参 视图 的 模型 ， 并 利用 这 些 模型 来 识别 空间 中 值得 探究 的 新 配置 点 。 

另外 ， 本 章 所 介绍 的 Auto-WEKA 工具 ， 能 够 利用 WEKA 中 的 所 有 学 习 算 法 ， 并 
使 得 非 专家 用 户 能 够 更 为 容易 地 为 给 定 的 应 用 场景 构建 高 质量 的 分 类 器 。 而 在 21 个 重 
要 数据 集 上 的 广泛 实验 比较 表明 ，Auto-WEKA 的 表现 性 能 通常 优 于 标准 的 算法 选择 和 
超 参 优化 方法 ， 尤 其 是 在 大 型 数据 集 上 。 

Auto-WEKA 是 第 一 个 使 用 贝 叶 斯 优化 来 自动 实例 化 高 度 参数 化 的 机 器 学 习 框 架 的 
工具 。 自 发 布 以 来 ，Auto-WEKA 已 被 工业 界 和 学 术 界 的 大 量 用 户 所 采用 。 而 集成 了 
WEKA 包 管 理 器 的 2.0 系列 的 累积 下 载 次 数 已 超过 30 000 次 ， 每 周 的 平均 下 载 次 数 超过 
550 次 。 目 前 ，Auto-WEKA 仍 处 于 积极 开发 和 拓展 中 ， 近 期 也 增加 了 一 些 新 的 特性 。 
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概述 : Hyperopt-sklearn 是 一 个 软件 项 目 ， 其 能 够 提供 Scikit-learn 机 器 学 习 库 的 自动 算法 配置 。 
类 似 于 Auto-WEKA， 分 类 器 的 选择 和 预 处 理 模块 的 选择 结合 在 一 起 时 可 以 被 视 为 一 个 大 型 的 超 
参 优 化 问题 。 本 章 采 用 Hyperopt 来 定义 一 个 包含 众多 标准 组 件 (如 SVM、RF、KNN、PCA、 
TFIDF) 及 能 够 组 合 它们 的 常见 模式 的 搜索 空间 。 另 外 ， 通 过 在 Hyperopt 和 标准 基准 数据 集 
(MNIST、20-Newsgroups、Convex Shapes ) 上 使 用 搜索 算法 ,证 明了 搜索 该 空间 的 实用 性 和 有 效 性 。 
特别 地 ，Hyperopt-sklearn 提升 了 MNIST 和 Convex Shapes 数据 集 上 模型 空间 的 已 知 最 佳 得 分 。 


5.1 引 & 


相 比 于 深度 网 络 ， 像 支持 向 量 机 (SVM) 和 随机 森林 (RF) 一 类 的 算法 具有 足够 
小 的 超 参数 量 ， 能 够 通过 手动 调 优 和 网 格 / 随机 搜索 来 获得 满足 预期 的 结果 。 不 过 退 一 
步 而 言 ， 当 SVM ARE 在 计算 上 均 可 行 的 时 候 ， 通 常 没有 特别 的 理由 来 使 用 它们 。 对 
一 个 模型 未 知 的 实践 者 ， 可 能 只 是 倾向 于 选择 能 够 提供 更 高 准确 度 的 模型 。 由 此 可 见 ， 
分 类 器 的 选择 与 SVM 中 的 CHR RF 中 的 最 大 树 深度 一 样 ， 也 可 以 视 为 超 参 。 事 实 上 ， 
预 处 理 模块 的 选择 和 配置 同样 可 以 视 为 模型 选择 / 超 参 优化 问题 的 一 部 分 。 

Auto-WEKA 项 目 1 是 第 一 个 表明 整个 机 器 学 习 方 法 库 (WEKA 8). 可 以 在 一 次 超 
参 调 优 运 行 范围 内 被 搜索 的 项 目 。 然 而 ，WEKA 是 一 个 GPL 许可 的 Java 库 并 且 在 编写 
时 没有 考虑 到 可 扩展 性 ， 因 此 有 必要 考虑 Auto-WEKA 的 替代 方案 。Scikitlearn ul 是 机 
器 学 习 算 法 的 另 一 个 库 ， 其 主要 基于 Python 语言 (拥有 很 多 速度 更 快 的 C 语言 模块 ) 
并 且 是 BSD 许可 的 。 除 此 之 外 ，Scikit-learn 支持 众多 机 器 学 习 应 用 领域 ， 也 已 大 范围 
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地 被 科学 Python 社区 所 使 用 。 

本 章 主要 介绍 Hyperopt-sklearn， 一 个 能 够 为 Python 和 Scikit-learn 用 户 带 来 自动 算 
法 配置 益处 的 项 目 。Hyperopt-sklearn 采用 Hyperopt 外 来 描述 Scikit-learn 组 件 〈 主 要 包 
括 预 处 理 、 分 类 和 回归 模块 ) 的 可 能 配置 的 搜索 空间 。 该 项 目的 一 个 主要 设计 特点 是 为 
Scikit-learn 用 户 提 供 一 个 熟悉 的 操作 界面 。 只 需要 很 少 的 改动 ， 超 参 搜索 就 可 以 被 应 用 
到 现 有 的 代码 库 中 。 具 体 而 言 ， 本 章 首 先 介绍 Hyperopt 的 背景 ， 随 后 介绍 Scikit-learn 
所 使 用 的 配置 空间 ， 最 后 给 出 该 软件 的 使 用 示例 和 实验 结果 。 

另外 ， 本 章 中 介绍 的 内 容 是 Hyperopt-sklearn 的 论文 (发 表 于 ICML 2014 的 
AutoML 研讨 专题 上 ) 的 扩展 版 本 ， 感 兴趣 的 读者 可 以 参阅 文献 [10]。 


5.2 Hyperopt 背景 


Hyperopt Æ B 为 算法 配置 中 出 现 的 搜索 空间 提供 了 优化 算法 。 可 以 采取 多 种 方式 对 
这 些 空 间 进行 特征 化 ， 即 不 同类 型 的 变量 〈 连 续 型 、 序 列 型 、 类 别 型 ) 、 不 同 灵敏 度 的 
概述 〈 如 均匀 与 对 数 缩放 ) 及 条 件 结构 例如 ， 当 两 个 分 类 器 之 间 存 在 选择 时 ， 若 选择 
了 其 中 一 个 分 类 器 ， 那 么 另 一 个 分 类 器 的 参数 就 不 再 相关 ) 。 为 了 使 用 Hyperopt， 用 户 
需要 定义 /选择 以 下 3 个 要 素 : 搜索 域 、 目 标 函 数 、 优 化 算法 。 

搜索 域 通过 随机 变量 来 指定 ， 不 过 随机 变量 的 分 布 应 是 选 定 的 ， 这 样 能 够 使 得 最 具 
前 景 的 组 合 具 有 较 高 的 先 验 概率 。 另 外 ， 搜 索 域 可 以 包含 Python 操作 符 和 函数 ， 这 些 
操作 符 和 函数 能 够 针对 目标 函数 将 随机 变量 组 合成 更 为 便捷 的 数据 结构 。 需 要 注意 的 是 ， 
任何 条 件 结构 都 定义 在 此 搜索 域 中 。 目 标 函数 主要 用 于 将 这 些 随机 变量 的 联合 采样 映射 
到 一 个 标量 值 分 数 中 ， 而 优化 算法 主要 致力 于 最 小 化 该 分 数 。 

下 面 给 出 一 个 采用 Hyperopt 的 搜索 域 示 例 ， 如 图 5.1 所 示 。 

from hyperopt import hp 

space = hp.choice('my conditional', 


[ 


("case 1', 1 + hp.lognormal('cl', 0, 1)), 
("case 2', hp.uniform('c2', -10, 10)), 
("case 3', hp.choice('c3', ['à', 'b', "etri 


]) 
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分 类 器 (1) 


n_components | | whiten nr leaf size|| algorithm) 
L I 
8 True 3]  [*distance"] "ball, tree"] 
RF: 随机 森林 分 类 器 ET: 极限 树 分 类 器 SS: 标准 标量 PCA: 主 成 分 分 析 
KNN: K 最 近邻 MNB: 多 项 式 朴素 贝 叶 斯 MMS: 最 小 -最 大 标量 TFIDF: 词 频 - 逆 文 本 频率 指数 
SVC: 支持 向 量 分 类 器 SGD: 随机 梯度 下 降 N: 归 - 化 


5.1 含有 预 处 理 步 骤 和 分 类 器 的 Hyperopt-sklearn 搜索 空间 示例 


E 该 示例 主要 包括 6 个 可 选 的 预 处 理 模块 和 6 个 可 选 的 分 类 器 。 在 该 配置 空间 中 选择 一 个 模型 ， 意 
味 着 在 祖先 采样 过 程 中 选择 路 径 。 高 亮 的 节点 代表 一 个 (PCA, KNN) 模型 ， 而 底部 的 白色 叶子 节 
点 描述 了 它们 父 超 参 的 示例 值 。 模 型 中 活动 的 超 参 数量 等 于 所 选 框 中 括号 内 数字 的 和 。 对 于 PCA 和 
KNN 的 组 合 ， 活 动 的 超 参 总 数 为 8 个 。 


这 里 有 4 个 参数 ，1 个 用 于 选择 活动 的 实例 ， 剩 下 3 个 则 是 每 个 实例 1 个 : 第 一 个 
实例 含有 1 个 敏感 于 对 数 缩放 的 正 值 参数 ;第 二 个 实例 含有 1 个 有 界 的 实 值 参 数 ， 第 三 
个 实例 主要 含有 一 个 具有 3 个 选项 的 类 别 型 参数 。 

当选 好 搜索 域 、 目 标 函 数 和 优化 算法 后 ，Hyperopt 的 fmin 函数 开始 运行 优化 过 程 ， 
并 将 搜索 结果 存储 到 数据 库 中 (如 简单 的 Python 列表 或 MongoDB 实例 ) 。 调 用 fmin 
函数 执行 简单 分 析 以 找到 性 能 最 佳 的 配置 ， 并 将 其 返回 给 调用 者 。 当 使 用 MongoDB 后 
端 时 ， 调 用 fmin 函数 使 用 多 个 工作 者 (worker〉 以 实现 计算 集群 上 的 并 行 化 模型 选择 。 


5.3 Scikit-Learn 模型 选择 


模型 选择 是 在 一 个 可 能 无 限 的 选项 集合 中 评估 哪个 机 器 学 习 模型 表现 最 好 的 过 程 。 
作为 一 个 优化 问题 ， 搜 索 域 为 机 器 学 习 模型 中 配置 参数 HE) 的 有 效 赋 值 的 集合 。 目 
标 函 数 通常 为 留存 示例 上 成 功 性 的 度量 ， 如 准确 度 、F 分 值 等 。 一 般 而 言 ， 成 功 性 的 负 
WR RAE) 主要 用 于 将 任务 设置 为 最 小 化 问题 ， 而 交叉 验证 则 被 用 于 生成 更 为 
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健壮 的 最 终 得 分 。 在 实际 应 用 中 ， 实 践 者 通常 采用 手工 、 网 格 搜索 或 随机 搜索 的 方式 来 
解决 该 优化 问题 。 本 章 主 要 讨论 采用 Hyperopt 优化 库 来 求解 该 优化 问题 。 基本 的 方法 是 ， 
首先 建立 具有 随机 变量 超 参 的 搜索 空间 ， 随 后 使 用 Scikit-learn 来 实现 能 够 执行 模型 训练 
和 模型 验证 的 目标 函数 ， 最 后 采用 Hyperopt 优化 超 参 。 

Scikit-learn 含有 众多 能 够 从 数据 中 进行 学 习 的 算法 〈 如 分 类 算法 和 回归 算法 ) ， 
以 及 众多 能 够 将 数据 预 处 理 成 这 些 学 习 算法 所 期 望 的 向 量 的 预 处 理 算法 。 举 例 而 言 ， 分 
类 器 有 天 近邻 、 支 持 向 量 机 及 随机 森林 等 算法 ;， 预 处 理 算 法 含有 变换 过 程 ， 如 逐 成 分 
的 Z 缩 放 〈 正 规 化 ) 、 主 成 分 分 析 (PCA) 等 。 一 个 完整 的 分 类 算法 通常 含有 一 系列 的 
预 处 理 步骤 及 后 续 的 分 类 器 。 基 于 此 ，Scikit-learn 提供 一 个 管道 数据 结构 来 表示 和 使 用 
一 系列 的 预 处 理 步骤 和 一 个 分 类 器 ， 使 得 它们 如 同一 个 组 件 ( 通 常 采 用 与 分 类 器 类 似 的 
API) 。 虽 然 Hyperopt-sklearn 没有 正式 使 用 Scikit-learn 的 管道 对 象 ， 不 过 它 提供 了 相 
关 的 功能 。 具 体 而 言 ，Hyperopt-sklearn 支持 管道 上 搜索 空间 的 参数 化 ， 即 预 处 理 步 又 
和 分 类 器 /回归 器 的 序列 的 参数 化 。 

在 撰写 本 章 时 ，Hyperopt-sklearn 的 配置 空间 主要 包含 24 个 分 类 器 、12 个 回归 器 及 
7 个 预 处 理 方法 。 作 为 一 个 开源 项 目 ， 相 信 随 着 更 多 用 户 的 加 入 和 贡献 ， 该 配置 空间 未 
来 会 越 来 越 大 。 在 最 初 的 发 布 版 本 中 ， 配 置 空间 中 只 有 一 小 部 分 是 可 用 的 ， 即 6 个 分 类 
器 和 5 个 预 处 理 算 法 。 该 空间 用 于 初始 性 能 的 分 析 ， 如 图 5.1 所 示 。 整 体 上 ， 该 参数 化 
含有 65 SHS: 15 个 布尔 变量 、14 个 类 别 型 变量 、17 个 离散 变量 和 19 个 实 值 变量 。 

虽然 整个 配置 空间 中 的 超 参 数量 会 非常 多 ， 但 是 用 于 描述 任何 一 个 模型 的 活动 超 参 
的 数量 相对 而 言 会 少 很 多 。 举 例 而 言 ， 一 个 包含 PCA 和 随机 森林 的 模型 ， 只 有 12 个 活 
动 的 超 参 ， 即 1 个 用 于 预 处 理 选择 的 超 参 、2 个 PCA 内 部 超 参 、1 个 用 于 分 类 器 选择 的 
超 参 和 8 个 随机 森林 内 部 的 超 参 。Hyperopt 描述 语言 能 够 区 分 条 件 超 参 (总 是 需要 被 
赋值 ) 和 非 条 件 超 参 〈 在 未 被 使 用 时 ， 可 能 未 被 赋值 ) 。 充 分 利用 这 一 机 制 ， 可 以 使 得 
Hyperopt 搜索 算法 不 会 浪费 时 间 来 反复 试 错 学 习 ， 如 随机 森林 的 超 参 对 SVM 算法 的 性 
能 没有 任何 影响 。 即 使 在 分 类 器 内 部 ， 条 件 超 参 的 情况 也 存在 。 例 如 ，KNN 含有 依赖 
于 距离 度量 的 条 件 参数 ， 以 及 LinearSVC 含有 3 个 布尔 参数 〈 损 失 、 惩 罚 和 对 偶 ) ， 而 
这 3 个 布尔 参数 只 允许 4 个 有 效 的 联合 赋值 。 另 外 ，Hyperopt-sklearn 含有 无 法 一 起 工 
作 的 ( 预 处 理 , 分 类 器 ) 对 的 黑 名 单 , 如 PCA 和 MinMaxScaler 与 MultinomialNB 不 兼容 ， 
TF-IDF 只 能 用 于 文本 数据 ， 以 及 基于 树 的 分 类 器 与 由 TF-IDF 预 处 理 器 所 产生 的 稀疏 特 
征 不 兼容 。 考 虑 到 实 值 超 参 的 10 种 离散 化 方式 和 这 些 条 件 超 参 ， 在 该 搜索 空间 上 所 进 
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行 的 网 格 搜索 所 需要 的 评估 次 数 仍 然 是 不 其 实际 的 (在 102 EREA) 。 

最 后 ， 当 定义 一 个 标量 值 搜索 目标 时 ， 搜 索 空间 就 变 成 一 个 优化 问题 。 默 认 情 况 下 ， 
Hyperopt-sklearn 采用 Scikit-learn 在 验证 数据 上 的 得 分 方法 来 定义 搜索 标准 。 对 于 分 类 
器 而 言 ， 就 是 所 谓 的 “0-1 损失 ”， 即 根据 用 于 训练 的 数据 集 (以 及 在 模型 选择 搜索 过 
程 后 用 于 测试 的 数据 集 ) 所 保留 的 数据 上 的 正确 的 标签 预测 数量 。 


5.4 使 用 示例 


按照 Scikit-learn 的 约定 ，Hyperopt-sklearn 提供 了 一 个 带 有 拟 合 方法 和 预测 方法 的 
评估 器 (Estimator) 类 。 具 体 而 言 ， 该 类 中 的 拟 合 方法 首先 执行 超 参 优化 过 程 。 在 拟 合 
完成 之 后 ， 预 测 方法 将 最 好 的 模型 应 用 到 给 定 的 测试 数据 上 。 而 优化 过 程 中 的 每 次 评估 
都 会 在 大 部 分 训练 集 上 执行 训练 过 程 ， 并 评估 验证 集 上 的 测试 集 的 准确 性 ， 随 后 将 验证 
集 得 分 返回 给 优化 器 。 另 外 ， 在 搜索 结束 时 ，Hyperopt-sklearn 会 在 整个 数据 集 上 重新 
训练 最 佳 配置 ， 以 生成 能 够 应 对 后 续 预测 调用 的 分 类 器 。 

Hyperopt-sklearn 的 一 个 重要 目标 是 能 够 较为 容易 地 学 习 和 使 用 。 为 了 便于 实现 这 一 
目标 ， 在 分 类 器 与 数据 进行 拟 合 和 执行 预测 的 语法 的 设计 上 ， 其 非常 类 似 于 Scikit-learn 
的 语法 。 接 下 来 ， 给 出 一 个 使 用 该 软件 的 简单 示例 。 

from hpsklearn import HyperoptEstimator 

+ 加 载 数据 

train data, train label, test data, test label = load my data() 

4 创建 estimator 对 象 

estim = HyperoptEstimator () 

# 在 Scikit-learn 中 搜索 分 类 器 、 预 处 理 步骤 及 相应 的 超 参 ， 以 拟 合 模型 和 数据 

estim.fit (train data, train label) 

+ 使 用 优化 后 的 模型 进行 预测 

prediction = estim.predict (test_data) 


+ 计算 给 定数 据 集 上 分 类 器 的 准确 度 


score = estim.score(test data, test label) 
+ 返回 分 类 器 和 预 处 理 步骤 的 实例 


model = estim.best_model () 


HyperoptEstimator 对 象 包含 搜索 什么 样 的 空间 及 如 何 进行 搜索 的 信息 。 另 外 ， 
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HyperoptEstimator 可 以 被 配置 成 使 用 多 种 超 参 搜索 算法 ， 同 时 支持 使 用 多 种 算法 的 组 合 。 
任何 支持 hyperopt 中 相同 接口 的 算法 在 这 里 都 可 以 使 用 。 除 此 之 外 ， 用 户 在 这 里 也 可 以 
指定 想 要 运行 的 最 大 的 函数 评估 次 数 及 每 次 运行 的 超时 时 长 (以 s 为 单位 ) 。 


from hpsklearn import HyperoptEstimator 
from hyperopt import tpe 
estim = HyperoptEstimator(algo-tpe.suggest, max evals-150, trial - 


timeout-60) 


实际 任务 中 ， 每 种 搜索 算法 都 会 给 搜索 空间 带 来 与 其 自身 相关 的 偏差 ， 而 且 很 难 明 
确 某 个 特定 的 策略 在 所 有 情形 下 都 是 表现 最 好 的 。 这 也 是 为 何 有 时 使 用 混合 搜索 算法 会 


大 有 神 益 。 


from hpsklearn import HyperoptEstimator 
from hyperopt import anneal, rand, tpe, mix 
+ 定义 一 个 算法 : 5$ 时 间 使 用 随机 搜索 ，75% 时 间 使 用 TPE，20% 时 间 使 用 退火 算法 
mix algo = partial (mix.suggest, 
p_suggest=[(0.05, rand.suggest), (0.75, tpe.suggest), (0.20, anneal. 
suggest) ]) 
estim = HyperoptEstimator(algo-mix algo, max evals-150, trial_ 


timeout-60) 


在 Scikit-learn 中 ， 有 效 地 搜索 整个 空间 上 的 可 用 分 类 器 会 使 用 大 量 的 时 间 和 计算 
资源 。 部 分 时 候 ， 用 户 可 能 会 有 一 个 特定 的 更 加 感 兴趣 的 模型 的 子 空间 。 而 通过 使 用 
Hyperopt-sklearn， 可 以 指定 一 个 更 为 狭窄 的 搜索 空间 ， 以 便 能 够 进行 更 为 深入 的 探索 。 


from hpsklearn import HyperoptEstimator, svc 


+ 将 搜索 限制 在 SVC 模 型 上 


estim = HyperoptEstimator (classifier-svc('my svc') 


另外 ， 用 户 也 可 以 对 不 同 空间 进行 组 合 ， 如 以 下 示例 所 示 。 


from hpsklearn import HyperoptEstimator, svc, knn 
from hyperopt import hp 
+ 限制 搜索 空间 只 包含 随机 森林 、K 近 邻 和 svc 模 型 
clf = hp.choice('my name', 
[random forest('my name.random forest'), 
svc('my name.svc'), 
knn('my name.knn')]) 
estim = HyperoptEstimator (classifier-clf) 
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Scikit-learn 中 的 支持 向 量 机 模型 有 多 个 不 同 核 方法 可 供 使 用 ， 如 线性 函数 、 径 向 基 
函数 、 多 项 式 函 数 和 sigmoid 函数 等 。 改 变 SVM 的 核 方法 会 极 大 影响 模型 的 表现 性 能 ， 
而 且 每 个 核 方法 都 有 其 各 自 的 独特 超 参 。 基 于 此 ，Hyperopt-sklearn 将 每 个 核 方法 都 视 
为 搜索 空间 中 的 唯一 模型 。 如 果 用 户 已 知 那个 核 方 法 在 用 户 给 定 的 数据 集 上 表现 最 佳 ， 
或 者 用 户 只 感 兴趣 于 探索 具有 特定 核 方 法 的 模型 ， 那 么 用 户 可 以 直接 指定 相应 的 核 方 法 
而 无 须 通过 SVC. 


from hpsklearn import HyperoptEstimator, svc rbf 
estim = HyperoptEstimator(classifier-svc rbf('my svc')) 


除 此 之 外 ， 用 户 也 可 以 指定 多 个 感 兴趣 的 核 方法 ， 且 以 列表 形式 传递 给 SVC. 


from hpsklearn import HyperoptEstimator, svc 

estim = HyperoptEstimator(classifier-svc('my svc', kernels-['linear', 

'sigmoid'])) 

与 分 类 器 类 似 ， 用 户 也 可 以 微调 预 处 理 模 块 的 空间 。 预 处 理 的 多 个 连续 阶段 可 以 通 
过 一 个 有 序列 表 来 指定 ， 而 空 列表 则 表示 对 数据 不 进行 任何 预 处 理 。 


from hpsklearn import HyperoptEstimator, pca 
estim = HyperoptEstimator (preprocessing-[pca ('my pca')]) 


在 这 里 ， 用 户 同 样 可 以 对 不 同 预 处 理 空间 进行 组 合 《〈 与 分 类 器 类 似 ) o 


from hpsklearn import HyperoptEstimator, tfidf, pca 

from hyperopt import hp 

preproc = hp.choice('my name', [[pca('my name.pca')], 
[pca('my name.pca'), normalizer( 'my name.norm')], 
[standard scaler('my name.std scaler')], 
(11) 


estim = HyperoptEstimator (preprocessing=preproc) 

需要 注意 的 是 ， 部 分 预 处 理 方法 只 在 特定 类 型 的 数据 上 才能 工作 。 举 例 而 言 ， 
Scikit-learn 中 的 TfidfVectorizer 是 专门 针对 文本 数据 而 设计 的 ， 无 法 适用 于 其 他 类 型 的 
数据 。 为 了 解决 该 问题 ，Hyperopt-sklearn 提供 了 一 些 预定 义 空间 ， 该 空间 包含 分 类 器 
和 针对 特定 数据 类 型 的 预 处 理 方法 。 
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from hpsklearn import HyperoptEstimator, any sparse classifier, \ 
any text preprocessing 

from hyperopt import tpe 

estim = HyperoptEstimator (algo-tpe.suggest, 
classifier-any sparse classifier('my clf'), 
preprocessing-any text preprocessing('my pp'), 
max evals-200, 
trial timeout-60) 


在 目前 给 出 的 所 有 示例 中 ， 模 型 中 的 每 一 个 可 用 超 参 都 会 被 搜索 。 事 实 上 ， 可 以 指 
定 特定 超 参 的 值 ， 并 且 这 些 参数 的 值 在 整个 搜索 过 程 中 保持 不 变 ， 而 该 处 理 方法 在 实际 
任务 中 是 非常 有 用 的 。 举 例 而 言 ， 用 户 已 经 知道 自己 想 要 使 用 白化 的 PCA 数据 和 一 个 3 
阶 多 项 式 核 的 SVM， 那 么 就 可 以 直接 指定 相应 的 参数 值 。 

from hpsklearn import HyperoptEstimator, pca, svc_poly 

estim = HyperoptEstimator (preprocessing-[pca ('my pca', whiten=True) ], 

classifier-svc poly('my poly', degree=3) ) 

另外 ， 也 可 以 指定 单个 参数 的 取 值 范围 ， 这 主要 是 通过 使 用 标准 hyperopt 语法 来 实 
现 的 ， 而 这 些 指定 的 值 会 覆盖 Hyperopt-sklearn 中 定义 的 默认 值 。 

from hpsklearn import HyperoptEstimator, pca, sgd 


from hyperopt import hp 
import numpy as np 


sgd_loss = hp.pchoice('loss', [(0.50, 'hinge'), (0.25, 'log'), (0.25, 
"huber') ]) 
sgd_penalty = hp.choice('penalty', ['12', 'elasticnet']) 


sgd alpha = hp.loguniform('alpha', low=np.log(le-5), high=np.log(1) ) 
estim = HyperoptEstimator(classifier-sgd('my sgd', 1loss-sgd loss, 
penalty-sgd penalty, 
alpha-sgd alpha) ) 
所 有 对 用 户 可 用 的 组 件 都 可 以 在 components.py 文件 中 找到 。 最 后 ， 给 出 使 用 
Hyperopt-sklearn 在 20-Newsgroups 数据 集 上 找到 一 个 合适 模型 的 完整 工作 示例 ， 具 体 代 
码 如 下 所 示 。 
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from hpsklearn import HyperoptEstimator, tfidf, any sparse classifier 
from sklearn.datasets import fetch 20newsgroups 

from hyperopt import tpe 

import numpy as np 

+ 下 载 数 据 ， 并 将 数据 切 分 成 训练 数据 集 和 测试 数据 集 

train = fetch 20newsgroups (subset-'train') 

test = fetch 20newsgroups (subset-'test') 

X train - train.data 

y train - train.target 

X test = test.data 

y test test.target 

estim = HyperoptEstimator(classifier-any sparse classifier('clf'), 


preprocessing-[tfidf ('tfidf')], 
algo-tpe.suggest, 
trial timeout-180) 

estim.fit(X train, y train) 

print(estim.score(X test, y test)) 

print (estim.best_model () ) 


55 = $ 


本 书 在 3 个 数据 集中 进行 了 实验 ， 以 验证 Hyperopt-sklearn 能 够 用 较为 合理 的 时 间 在 
一 系列 数据 集中 找到 精确 的 模型 ， 并 在 此 3 个 数据 集 (MNIST、20-Newsgroups 和 Convex 
Shapes) 中 收集 相应 的 实验 结果 。 具 体 而 言 ，MNIST 是 一 个 较为 有 名 的 数据 集 ， 其 主要 
含有 7 万 张 28 X 28 的 手写 数字 灰 度 图 像 3，20-Newsgroups 是 一 个 具有 20 个 分 类 主 
题 的 数据 集 ， 主 要 包含 2 万 个 新 闻 组 信息 吗 ， 需 要 注意 的 是 ， 在 本 次 实验 中 ， 并 没有 删 
除 相应 的 标题 ; Convex Shapes 是 一 个 二 值 分 类 任务 ， 其 主要 识别 黑白 小 图 像 (32 X 32) 
中 的 凸 白色 区 域 图 像 中。 

图 5.2 (a) 表明 广泛 的 搜索 并 不 会 带 来 明显 的 效果 提升 。 该 实验 主要 对 图 5.1 所 描 
述 的 空间 子 集 进行 搜索 ， 总 共 执行 了 多 达 300 次 函数 评估 的 优化 运行 。 除 此 之 外 ， 本 实 
验 对 解决 方案 的 质量 与 特定 分 类 器 类 型 (包括 最 为 著名 的 分 类 器 ) 的 专 有 型 搜索 进行 了 
比较 。 
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图 5.2 Cb) 表明 搜索 可 以 找到 不 同 的 有 效 模 型 。 该 图 的 构建 主要 通过 以 不 同 的 初始 
条 件 〈 评 估 次 数 、 优 化 算法 的 选择 及 随机 种 子 数 ) 来 运行 Hyperopt-sklearn， 并 记录 每 
次 运行 后 所 选择 的 最 终 模 型 。 虽 然 支持 向 量 机 在 众多 对 比 算法 中 总 是 表现 最 佳 ， 但 在 不 
HARRE, 最 佳 支持 向 量 机 的 参数 看 起 来 差别 很 大 。 举例 而 言 , 在 图 像 数据 集 CMNIST 
和 Convex Shapes) 上 ， 所 选择 的 支持 向 量 机 从 来 不 含有 sigmoid 或 线性 核 函数 。 然 而 ， 
在 20-Newsgroups 上 ，sigmoid 核 函数 和 线性 核 函数 却 总 是 表现 最 佳 。 
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5.2 ”最 佳 的 模型 性 能 和 模型 的 选择 分 布 


EB: (D (a) 图 : 最 佳 的 模型 性 能 。 对 于 每 个 数据 集 ， 搜 索 整 个 配置 空间 CBN Any Classifier) 所 获 
得 的 性 能 与 搜索 限制 在 最 佳 分 类 器 类 型 上 的 空间 所 获得 的 性 能 大 臻 相当。 每 个 颜色 条 表示 搜索 受 限于 
特定 分 类 器 上 的 相应 得 分 ， 而 Any Classifier 则 表示 对 搜索 空间 不 做 任何 限制 。 在 所 有 情形 下 ， 超 参 的 
评估 次 数 都 为 300。 另 外 ， 在 20-Newsgroups 数据 集 上 ， 得 分 为 fi. 在 MNIST 和 Convex Shapes E, 
得 分 为 准确 度 ; (2) Cb) 图 : 模型 的 选择 分 布 。 通 过 观察 在 完整 搜索 空间 (Any Classifier， 采 用 不 同 
的 初始 条 件 和 不 同 的 优化 算法 ) 上 进行 优化 所 获得 的 最 佳 模型 发 现 ， 不 同 的 分 类 器 适合 于 处 理 不 同 的 
数据 集 。 由 图 可 知 ， 支 持 向 量 机 模型 是 唯一 的 一 个 表现 都 较 好 的 分 类 器 ， 其 在 Convex Shapes 数据 集 
上 是 唯一 的 最 佳 模型 ， 在 MNIST 和 20-Newsgroups 数据 集 上 也 是 表现 较 好 的 模型 之 一 。 不 过 需要 注意 
的 是 ， 在 不 同 数据 集 上 ， 支 持 向 量 机 的 参数 会 非常 不 同 。 


有 时 ， 不 熟悉 机 器 学 习 技 术 的 研究 者 可 能 直接 使 用 那些 对 他 们 可 用 的 分 类 器 的 默 
认 参 数 。 为 了 观察 Hyperopt-sklearn 作为 这 种 方法 的 替代 方案 的 有 效 性 ， 实 验 对 默认 
Scikit-learn 参数 和 默认 Hyperopt-sklearn 空间 上 的 小 范围 搜索 (25 次 评估 ) 的 性 能 进行 
了 比较 。 图 5.3 给 出 了 20-Newsgroups 数据 集 上 的 比较 结果 。 由 图 5.3 可 知 , 在 所 有 情况 下 ， 
Hyperopt-sklearn 的 性 能 都 超过 了 对 比方 法 〈Scikit-learn) ， 表 明 即 使 使 用 较 少 的 计算 预 
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算 ， 该 搜索 技术 也 是 有 价值 的 。 
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5.3 20-Newsgroups 数据 集 上 的 比较 结果 


在 20-Newsgroups 数据 集 上 ， 对 使 用 Scikit-learn 默认 参数 和 使 用 Hyperopt-sklearn 
默认 搜索 空间 所 获得 的 FF 值 进行 比较 。 其 中 ，Hyperopt-sklearn 上 的 结果 来 自 于 只 执行 
了 一 次 具有 25 次 参数 评估 的 运行 , 并 且 搜索 空间 会 被 限定 在 支持 向 量 机 、 随 机 梯度 下 降 、 
天 近邻 或 多 项 式 朴 素 贝 叶 斯 中 的 一 个 。 


5.6 讨论 与 展望 


表 5.1 列 出 了 由 交叉 验证 所 找到 的 最 佳 模型 的 测试 集 得 分 ， 以 及 之 前 工作 的 一 些 可 
供 参考 的 实验 结果 。 相 对 而 言 ，Hyperopt-sklearn 在 每 个 数据 集 上 的 表现 都 比较 好 ， 表 
明 在 使 用 Hyperopt-sklearn 参数 化 的 情况 下 ,Hyperopt 优化 算法 可 以 与 人 类 专家 相 媲 美 。 

在 MNIST 数字 数据 集 上 ， 具 有 最 佳 性 能 的 模型 使 用 了 深度 人 工 神经 网 络 。 卷 积 〈 赢 
家 通 吃 型 的 ) 神经 元 的 小 接受 域 构建 了 大 网 络 。 在 该 网 络 中 ， 每 一 个 神经 列 都 成 为 由 不 
同方 式 所 预 处 理 的 输入 上 的 专家 ， 而 35 个 深度 神经 列 上 的 平均 预测 则 构成 单一 的 最 终 
预测 由 。 该 模型 比 Scikit-learn 中 的 那些 可 用 模型 都 要 更 为 先进 。 之 前 在 Scikit-learn 搜 
索 空 间 中 ， 已 知 的 最 佳 模 型 为 中 心 数据 上 的 径 向 基 支 持 向 量 机 《得 分 为 98.69%) ， 而 
Hyperopt-sklearn 可 以 达到 最 佳 性 能 中 。 
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表 5.1 最 佳 模 型 的 测试 集 得 分 及 参考 实验 结果 
20-Newsgroups Convex shapes 
精度 (% ) 5 法 请 Score 方 法 精度 (96) 
Committee of convnets hyperopt-sklearn 


hyperopt-sklearn hyperopt-sklearn hp-dbnet 

libSVM grid search SVMTorch dbn-3 

Boosted trees LibSVM 
图: 在 本 次 实验 所 用 的 3 个 数据 集 上 ， 分 别 给 出 Hyperopt-sklearn 和 相关 参考 文献 中 算法 的 得 分 。 在 
MNIST 数据 集 上 ，Hyperopt-sklearn 是 具有 较 佳 得 分 的 模型 之 一 ， 尤 为 重要 的 是 其 没有 使 用 任何 图 像 
相关 的 领域 知识 (这 些 得 分 可 以 参阅 链接 http://yann.lecun.com/exdb/mnist/) 。 在 20-Newsgroups 数据 
集 上 ，Hyperopt-sklearn 可 以 与 参考 文献 中 的 类 似 方 法 (得 分 来 自 于 参考 文献 T HR. RAUS 
Hyperopt-sklearn 上 的 得 分 为 来 自 sklearn 的 加 权 平 均 F 分 值 ， 而 这 里 的 其 他 方法 采用 的 是 宏 平 均 F 分 
值 。 在 Convex Shapes 数据 集 上 ，Hyperopt-sklearn 优 于 之 前 的 自动 算法 配置 方法 外 和 手动 调 优 方法 "11. 

在 20 个 新 闻 组 文档 分 类 数据 集 上 表现 较 好 的 CFC 模型 是 一 个 类 -特征 -质心 的 分 类 
器 。 基 于 质心 的 分 类 方法 通常 不 如 支持 向 量 机 ， 因 为 其 在 训练 过 程 中 所 找到 的 质心 与 最 
优点 距离 较 远 。 而 本 次 实验 中 的 CFC 方法 所 采用 的 质心 主要 构建 于 类 间 项 索引 和 类 内 
项 索引 ， 并 使 用 了 一 个 新 的 索引 〔 即 前 面 提 到 的 类 间 项 索引 和 类 内 项 索引 ) 组 合 方式 和 
一 个 去 正则 化 的 余弦 测量 来 计算 质心 和 文本 向 量 之 间 的 相似 度 分 值 中 。 这 种 风格 的 模型 
目前 在 Hyperopt-sklearn 中 还 没有 被 实现 ， 并 且 本 次 实验 结果 也 表明 现 有 的 Hyperopt- 
sklearn 组 件 还 无 法 组 装 到 与 其 性 能 相 匹 配 的 水 准 。 当 它 被 实现 的 时 候 ，Hyperopt 有 可 能 
会 找到 一 组 甚至 具有 更 高 分 类 精度 的 参数 。 

在 Convex shapes 数据 集 上 ，Hyperopt-sklearn 的 实验 结果 揭示 了 一 个 比 之 前 存在 于 
任何 搜索 空间 中 的 更 为 精确 的 模型 ， 更 不 用 说 这 种 标准 组 件 上 的 搜索 空间 。 另 外 ， 该 结 
果 也 强调 了 超 参 搜索 的 难度 和 重要 性 。 

Hyperopt-sklearn 提供 了 很 多 未 来 可 以 研究 的 方向 : 在 搜索 空间 包含 更 多 的 分 类 器 
和 预 处 理 模 块 ， 以 及 更 多 的 可 以 组 合 现 有 组 件 的 方法 。 另 外 ， 不 同类 型 的 数据 需要 不 同 
的 预 处 理 方法 ， 并 且 除 分 类 外 还 有 其 他 的 预测 问题 。 在 扩展 搜索 空间 时 ， 需 要 确保 新 模 
型 所 带 来 的 益处 要 超过 搜索 更 大 空间 所 带 来 的 困难 。 一 些 由 Scikit-learn 所 揭示 的 参数 比 
影响 拟 合 结果 的 真实 超 参 具有 更 多 的 实现 细节 ， 如 KNN 模型 的 算法 和 叶子 规模 (leaf_ 
size) 。 需 要 注意 的 是 ， 应 识别 每 个 模型 中 的 这 类 参数 ， 并 在 探索 过 程 中 可 能 需要 以 不 
同 的 方式 来 处 理 它们 。 

对 于 用 户 而 言 ， 可 以 将 自 定义 的 分 类 器 添加 到 搜索 空间 中 ， 只 要 该 分 类 器 符合 
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Scikit-learn 的 接口 即 可 。 目 前 ， 这 需要 用 户 对 Hyperopt-sklearn 的 代码 结构 有 一 定 的 了 
解 ， 而 如 果 能 够 提高 这 方面 的 支持 ， 将 是 非常 有 价值 的 ， 因 为 这 样 用 户 只 需 花 费 较 少 的 
精力 即 可 。 除 此 之 外 ， 用 户 也 可 以 指定 除了 默认 的 准确 度 和 FF 值 之 外 的 其 他 评分 方法 。 


因为 在 有 些 情况 下 ， 这 些 默 认 的 评分 方法 并 不 一 定 最 适合 于 某 个 特定 的 问题 。 


在 这 里 ， 实 验 结果 表明 Hyperopt 的 随机 搜索 、 退 火 搜 索 和 TPE 算法 都 可 以 使 
Hyperopt-sklearn 变 得 可 用 ， 但 是 图 5.4 中 较 慢 的 收敛 性 表明 其 他 的 优化 算法 可 能 具有 更 
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(e) 


5.4 ”模型 的 验证 损失 


E3: 使 用 20-Newsgroups 数据 集 和 Any Classifier 搜索 域 ， 为 每 个 连续 参数 评估 所 找到 的 模型 的 验证 损失 : 
(a) 图 ，TPE 算法 在 不 同 随机 种 子 数 上 每 一 步 的 平均 验证 损失 。 下 降 趋势 表明 ， 随 着 时 间 的 推移 ， 更 具 潜 


力 的 


区 域 被 开发 得 越 来 越 为 频繁 。 


(b) 图 ， 随 机 算法 的 平均 验证 损失 平滑 趋势 表明 算法 没有 从 之 前 的 尝试 
中 学 习 到 知识 ， 而 在 评估 性 能 上 的 较 大 变化 则 表明 该 问题 敏感 于 超 参 优化 。 


(c) 图 ，TPE 算法 目前 为 止 所 


找到 的 模型 的 最 小 验证 损失 。 在 20- Newsgroups 数据 集 上 ， 超 过 300 次 迭代 所 取得 的 渐进 进展 并 没有 显示 
出 收敛 的 迹象 。 (d) 图 ， 随 机 搜索 所 找到 的 模型 的 最 小 验证 损失 。 具 体 而 言 ， 最 初 40 个 评估 的 进展 很 快 ， 
随后 的 较 长 时 间 都 保持 一 个 稳定 的 状态 。 虽然 改善 一 直 在 持续 ,不 过 随 着 时 间 的 推移 改善 效果 越 来 越 小 。 


114 自动 机 器 学 习 ( AutoML ) : 方法 、 系 统 与 挑战 


高 的 调用 效率 。 贝 叶 斯 优化 算法 的 发 展 是 一 个 十 分 活跃 的 研究 领域 ， 相 信 在 未 来 会 有 更 
多 的 搜索 算法 与 Hyperopt-sklearn 的 搜索 空间 进行 交互 和 融合 。 尤 为 重要 的 是 ， 超 参 优 
化 开启 了 一 个 搜索 空间 的 参数 化 与 搜索 算法 的 优势 相 匹 配 的 新 方向 。 

在 搜索 上 所 花费 的 计算 时 钟 时 间 具 有 非常 重要 的 实际 意义 ， 而 目前 的 Hyperopt- 
sklearn 在 评估 没有 潜力 的 点 上 花费 了 大 量 的 时 间 。 毋 庸 置疑 ， 能 够 较 早 识别 较 差 表现 者 
的 技术 将 会 极 大 地 提升 搜索 的 速度 5 181, 


5.7 总 结 


本 章 主要 介绍 了 Hyperopt-sklearn， 它 是 一 个 用 于 对 由 Scikit-Learn 所 提供 的 标准 机 
器 学 习 算 法 进行 自动 算法 配置 的 Python 包 。Hyperopt-sklearn 为 Scikit-learn 中 可 用 的 大 
量 机 器 学 习 算法 提供 了 一 个 统一 的 接口 。 和 凭借 Hyperopt 的 优化 功能 ，Hyperopt-sklearn 
在 算法 配置 上 可 以 与 人 类 专家 相 媲 美 ， 甚 至 能 够 超越 人 类 专家 。 最 后 ， 希 望 Hyperopt- 
sklearn 能 够 为 实践 者 开发 机 器 学 习 系统 时 提供 一 个 有 用 的 工具 ， 为 自动 机 器 学 习 研 究 者 
在 算法 配置 方面 提供 一 个 未 来 工作 的 基准 。 


E Bi} NSERC Banting Fellowship 项 目 、NSERC Engage 项 目 和 D-Wave Systems 所 
提供 的 支持 和 资助 。 同 时 感谢 赫 里 斯 带 扬 。 博 戈 耶 夫 斯 基 所 提供 的 一 个 Hyperopt 到 
Scikit-learn 之 间 关 联 的 早期 草稿 。 
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概述 : 机 器 学 习 在 众多 应 用 上 的 成 功 ， 使 得 机 器 学 习 系统 能 够 直接 被 非 专家 用 户 所 使 用 的 需求 日 
益 增长 。 想 要 在 实践 中 真正 产生 效用 ， 就 需要 该 系统 能 够 为 一 个 新 数据 集 自 动 选择 合适 的 算法 和 
特征 预 处 理 流程 ， 并 且 能 够 同时 设置 它们 各 自 的 超 参 。 而 近期 的 工作 已 经 开始 采用 有 效 的 贝 叶 斯 
优化 方法 来 解决 该 自动 机 器 学 习 (AutoML ) 问题 。 在 此 基础 上 ， 本 章 会 介绍 一 个 基于 Python 机 
器 学 习 包 (Scikit-learn ) 的 健壮 的 新 AtuoML 系统 一 一 Auto-sklearn， 其 使 用 了 15 个 分 类 器 、14 
个 特征 预 处 理 方法 和 4 个 数据 预 处 理 方法 ， 并 生成 了 一 个 具有 110 个 超 参 的 结构 化 假设 空间 。 
Auto-sklearn 通过 自动 考虑 类 似 数据 集 上 的 过 往 性 能 和 自动 集成 优化 过 程 中 所 评估 的 模型 ， 改 进 
了 已 有 的 AutoML 方法 。 该 系统 赢得 了 第 一 届 ChaLearn 自动 机 器 学 习 挑战 赛 10 个 阶段 中 的 6 个 
阶段 ， 并 且 通 过 在 100 个 不 同 数据 集 上 的 综合 性 分 析 表 明 该 系统 能 够 显著 超越 当前 AutoML 中 最 
为 先进 的 技术 。 与 此 同时 ， 本 章 也 揭示 了 该 系统 中 的 每 项 贡献 所 能 带 来 的 性 能 收益 ， 并 深入 讲解 
了 Auto-sklearn 中 各 个 组 件 的 有 效 性 。 


6.1 引 


Ill 


近期 ， 机 器 学 习 在 很 多 应 用 领域 都 取得 了 长 足 的 进展 ， 这 也 推动 了 对 能 够 被 机 器 学 
习 新 手 有 效 使 用 的 机 器 学 习 系 统 的 需求 不 断 增 长 。 相 应 地 ， 越 来 越 多 的 商业 企业 致力 
于 满足 这 一 需求 ， 如 BigML.com, Wise.io. H20.ai. Feedzai.com, RapidMiner.com, 
Prediction.io、DataRobot.com、 微 软 的 Azure 机 器 学 习 解 决 方案 、 谷 歌 的 云 机 器 学 习 引 
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擎 和 亚马逊 的 机 器 学 习 解 决 方案 。 最 为 核心 的 是 ， 每 个 有 效 的 机 器 学 习 服务 都 需要 解决 
其 中 的 基础 性 问题 ， 即 如 何 为 给 定 的 数据 集 选择 合适 的 机 器 学 习 算法 、 是 否 需要 及 如 何 
对 特征 进行 预 处 理 ， 还 有 如 何 对 所 有 的 超 参 进行 设置 。 而 这 就 是 本 章 所 介绍 的 着 重要 解 
决 的 问题 。 

更 为 具体 一 点 ， 本 章 对 自动 机 器 学 习 进 行 了 研究 ， 即 能 够 在 固定 计算 预算 的 前 提 下 
为 新 数据 集 自动 生成 测试 集 预测 的 问题 。 该 AutoML 问题 可 以 被 形式 化 为 如 下 内 容 。 

定义 1 CAutoML 问题) : 对 于 1=1.…,n+ m. Wx WER, y, 为 对 应 的 
目标 值 。 给 定 训练 集 Dan ={(%, 思 ),…,(%,%)} 和 来 自 相同 底层 数据 分 布 的 测试 集 
Dua = (a Joa) Ota Yan )} 的 特征 向 量 %%,…,%,s， 以 及 资源 预算 b 和 损失 测量 函 
HLC)» AutoML 问题 的 目标 是 能 够 (自动 》 生 成 准确 的 测试 集 预测 疡 ,,…, 放 ,,。 而 
RERIMAOR i Sng SEA RINT SADLER, BSL Fan as) 


实际 上 ， 预 算 0 主要 包含 计算 资源 ， 如 CPU 时 间 /挂钟 时 间 及 内 存 使 用 量 。 该 问题 
的 定义 反映 了 第 一 届 ChaLearn 自动 机 器 学 习 挑战 赛 的 设置 情况 (外 ， 另 外 该 竞赛 的 具体 
介绍 和 分 析 可 以 参阅 第 10 章 。 这 里 所 介绍 的 AutoML 系统 赢得 了 该 竞赛 10 个 阶段 中 的 
6 个 。 

本 章 遵循 并 扩展 了 首次 由 Auto-WEKA (名 所 引入 的 AutoML 方法 ， 得 到 Auto- 
sklearn。 而 Auto-sklearn 的 核心 是 将 一 个 高 度 参数 化 的 机 器 学 习 框 架 下 与 贝 叶 斯 优化 方 
法 徊 进行 结合 ， 从 而 能 够 为 一 个 给 定 的 数据 集 实例 化 一 个 合适 的 框架 忆 。 

Auto-sklearn 的 主要 贡献 为 基于 能 够 适用 到 广泛 的 机 器 学 习 框 架 〈 如 上 文 所 提 到 的 
机 器 学 习 服 务 提 供 者 中 所 用 到 的 那些 框架 ) 的 原则 ， 采 用 各 种 方法 扩展 了 AutoML 方法 ， 
并 极 大 地 提高 了 AutoML 方法 的 效率 和 和 鲁 棒 性 。 首 先 ， 参 考 之 前 在 低 维 优化 问题 上 表现 
较 好 的 相关 研究 工作 Pr 2 测 ， 通 过 跨 数 据 集 推理 来 识别 在 新 数据 集 上 表现 良好 的 机 器 
学 习 框 架 的 实例 ， 并 用 这 些 实例 来 热 启动 贝 叶 斯 优化 模型 (具体 内 容 见 6.3.1 节 ) 。 随 
后 ， 对 由 贝 叶 斯 优化 所 得 出 的 模型 进行 自动 集成 (具体 内 容 见 6.3.2 节 ) 。 接 下 来 ， 使 
用 机 器 学 习 框 架 Scikit-learnP?! 中 所 实现 的 高 性 能 分 类 器 和 预 处 理 器 ， 精 心 设计 了 一 个 高 
度 参数 化 的 机 器 学 习 框 架 (具体 内 容 见 6.4 节 ) 。 最 后 ， 在 大 量 不 同 的 数据 集 上 进行 了 
一 个 较为 全 面 的 实验 分 析 ， 实 验 结果 表明 本 章 所 提出 的 Auto-sklearn 系统 优 于 先前 最 好 
的 AutoML 方法 (具体 内 容 见 6.5 节 ) 。 除 此 之 外 ， 实 验 结果 也 展示 了 每 项 改进 为 性 能 
所 带 来 的 显著 提升 (6.6 节 ) ， 以 及 深入 了 解 了 Auto-sklearn 中 所 使 用 的 各 个 分 类 器 和 预 
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处 理 器 的 性 能 表现 (6.7 节 ) 。 
另外 ， 本 章 主要 为 2015 年 发 表 于 NeurIPS 2015 的 介绍 Auto-sklearn 的 论文 O 的 扩 
展 版 本 ， 感 兴趣 的 读者 可 以 阅读 该 论文 。 


6.2 CASH 问题 


本 节 首 先 回顾 Auto-WEKA 中 的 AutoML 方法 ， 其 将 自动 机 器 学 习 问 题 形式 化 成 算 
法 选择 和 超 参 优化 的 结合 问题 (CASH) 。 在 自动 机 器 学 习 中 ， 两 个 非常 重要 的 问题 需 
要 注意 : @ 没 有 单一 的 机 器 学 习 算法 能 够 在 所 有 的 数据 集 上 都 表现 得 最 好 ;，@ 很 多 机 器 
学 习 算法 (如 非 线性 支持 向 量 机 》 极 度 依赖 超 参 优化 。 不 过 第 二 个 问题 目前 通过 使 用 贝 
叶 斯 优化 得 以 成 功 解决 e 人 ,现在 也 是 很 多 自动 机 器 学 习 系统 的 核心 组 成 部 分 。 至 于 第 
一 个 问题 ， 其 与 第 二 个 问题 是 交织 在 一 起 的 ， 因 为 算法 的 排序 依赖 于 它们 的 超 参 是 否 得 
到 了 合适 的 调 优 。 幸 运 的 是 ， 可 以 将 这 两 个 问题 有 效 地 处 理 成 一 个 单一 结构 化 的 联合 优 
化 问题 ， 如 下 所 示 。 
定义 2 (CASH 问题 ) : 设 A={40,…, 4”} 为 算法 的 集合 ， 每 个 算法 AP 超 参 的 域 为 
AO 。 再 者 ， 设 训练 集 为 Dus (Qs) (5 9,)] ， 并 对 其 进行 K 折 交叉 验证 划分 ， 
Ty (05, DE} (09, M9} 。 其中， 对 于 每 一 个 划分 的 数据 集 1-1, Go 
DO = Dus! ao BUG» VA C( AY, DO, Ds) 来 表示 训练 于 数据 集 DO, 的 算法 AP GE 
参数 为 4) 在 验证 数据 集 0, 上 的 损失 。 总 结 而 言 ， 算 法 选择 和 超 参 优化 的 结合 问题 
(CASH) 就 是 求解 能 够 最 小 化 该 损失 的 算法 和 超 参 的 联合 设置 ， 如 式 〈6.1) 所 示 。 
E an ne oo 
Ae (人 D DEL BE) (6.1) 
CASH 问题 最 早 是 由 桑 顿 等 名 在 Auto-WEKA 系统 中 采用 机 器 学 习 框 架 WEKA 
和 基于 树 的 贝 叶 斯 优化 方法 来 解决 的 区 妇 。 简 单 来 说 ， 贝 叶 斯 优化 凹 会 拟 合 一 个 概率 模 
型 ， 以 刻画 超 参 设置 和 对 应 的 测量 性 能 之 间 的 关系 。 随 后 ， 采 用 该 模型 来 选择 最 具 潜 力 
的 超 参 设置 〈 会 对 空间 中 新 区 域 的 探索 和 已 知 最 好 区 域 的 利用 进行 权衡 ) ， 并 对 该 超 参 
设置 进行 评估 及 使 用 评估 后 的 结果 来 更 新 该 模型 ， 重 复 迭 代 该 运算 过 程 。 虽 然 基于 高 斯 
过 程 模型 的 贝 叶 斯 优化 〈 如 斯 诺 克 等 的 工作 名) 在 数值 型 超 参 的 低 维 问题 上 表现 最 好 ， 
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但 在 高 维 、 结 构 化 和 部 分 离散 的 问题 上 〈 如 CASH 问题 ) 基于 树 的 模型 表现 会 更 好 I, 
另外 ， 在 AutoML 系统 Hyperort-sklearn?? 中 ， 目 前 采用 的 也 是 基于 树 的 贝 叶 斯 优化 方 
法 。 而 在 基于 树 的 贝 叶 斯 优化 方法 中 ， 桑 顿 等 VU 发 现 基于 随机 森林 的 SMACI2 优 于 树 
JÉ Parzen 估计 器 (TPES!) ， 故 而 本 章 主 要 采用 SMAC 方法 来 求解 CASH 问题 。 再 者 ， 
除了 使 用 随机 森林 名 之 外 ，SMAC 的 另 一 个 主要 区 别 是 其 通过 一 次 评估 一 个 折 释 并 较 早 
地 丢弃 性 能 较 差 的 超 参 设置 以 支持 更 快 的 交叉 验证 。 


6.3 改 进 


本 节 主 要 讨论 针对 AutoML 方法 所 做 出 的 两 项 改进 : OE AutoML 方法 中 加 入 元 学 
习 步 骤 以 热 启动 贝 叶 斯 优化 方法 ， 使 得 效率 得 到 较 大 幅度 的 提升 ，@ 在 AutoML 方法 中 
加 入 自动 的 集成 构建 步 又， 使 得 用 户 可 以 使 用 由 贝 叶 斯 优化 所 找到 的 所 有 分 类 器 。 

6.1 给 出 了 AutoML 的 整体 工作 流程 , 包括 上 面 所 提 到 的 两 项 改进 。 需要 注意 的 是 ， 
对 于 那些 能 够 提供 更 多 自由 度 〈 如 更 多 的 算法 、 超 参 和 预 处 理 方法 ) 的 灵活 的 机 器 学 习 
框架 ， 预 计 它们 的 效率 会 更 高 一 些 。 
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6.1 改进 的 AutoML 方法 


E3 主要 在 机 器 学 习 框架 的 贝 叶 斯 超 参 优化 中 增加 了 两 个 组 件 : 用 于 贝 叶 斯 优化 器 初始 化 的 元 学 习 和 
对 优化 过 程 中 所 评估 过 的 配置 的 集成 进行 自动 构建 。 


6.3.1 元 学 习 步 骤 


领域 专家 会 从 以 前 的 任务 中 获得 知识 ， 即 他 们 会 对 机 器 学 习 算 法 的 性 能 进行 学 习 ， 
而 元 学 习 《〈 具 体内 容 见 第 2 章 ) 通过 推理 跨 数据 集 上 学 习 算 法 的 性 能 来 模仿 领域 专家 的 
这 种 策略 。 本 章 中 ， 通 过 应 用 元 学 习 来 选择 给 定 机 器 学 习 框架 上 很 可 能 会 在 新 数据 集 上 
表现 良好 的 实例 。 更 具体 一 点 ， 对 于 大 量 的 数据 集 ， 会 同时 收集 性 能 数据 和 一 组 元 特征 ， 
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即 能 够 高 效 计算 和 有 助 于 确定 新 数据 集 上 相应 算法 的 数据 集 特征 。 

该 元 学 习 方 法 是 对 机 器 学 习 框 架 进行 优化 的 贝 叶 斯 优化 方法 的 补充 。 元 学 习 可 以 快 
速 地 找到 一 些 表现 可 能 会 十 分 良好 的 机 器 学 习 框 架 实 例 ， 不 过 它 无 法 提供 性 能 的 细 粒 度 
信息 。 与 之 相反 ， 对 于 像 整 个 机 器 学 习 框架 那样 大 的 超 参 空间 ， 贝 叶 斯 优化 的 启动 速度 
会 比较 慢 ， 不 过 它 可 以 随 着 时 间 对 性 能 进行 微调 。 本 章 通过 基于 元 学 习 选 择 k 个 配置 的 
方式 来 利用 这 种 互补 性 ， 并 使 用 它们 的 结果 来 初始 化 贝 叶 斯 优化 方法 。 这 种 通过 元 学 习 
来 热 启 动 贝 叶 斯 优化 的 方法 在 之 前 的 工作 中 Pe 2 0 得 以 成 功 应 用 ， 但 是 还 没有 遇 到 像 
搜索 成 熟 ML 框架 的 实例 化 空间 那样 复杂 的 优化 问题 。 与 之 类 似 ， 跨 数据 集 上 的 学 习 也 
已 被 应 用 于 协同 贝 叶 斯 优化 方法 中 上 知 。 昌 然 这 些 方法 都 很 有 潜力 ， 但 是 到 目前 为 止 ， 
它们 仍 受 限于 非常 少 的 元 特征 ， 并 且 还 无 法 处 理 AutoML 所 面临 的 高 维 的 部 分 离散 的 配 
置 空间 。 

接 下 来 ， 给 出 本 章 所 使 用 的 元 学 习 方 法 的 具体 工作 流程 。 在 离线 阶段 ， 对 于 数据 仓 
库 中 《本 章 使 用 了 来 自 OpenML 仓库 中 的 140 个 数据 集 ) 的 每 一 个 机 器 学 习 数据 集 ， 
评估 一 组 元 特征 〈 后 文 会 具体 阐述 )， 并 使 用 贝 叶 斯 优化 来 确定 和 存储 一 个 在 该 数据 集 
上 具有 很 强 经 验 性 能 的 给 定 ML 框架 的 实例 。 有 具体 而 言 ， 本 章 在 2/3 的 数据 上 使 用 10 折 
交叉 验证 运行 SMACE 方法 24h， 并 储存 剩余 1/3 数据 上 具有 最 佳 性 能 表现 的 ML 框架 
实例 。 随 后 ， 对 于 给 定 的 新 数据 集 人 ， 计 算 该 数据 集 的 元 特征 。 然 后 ， 基 于 之 前 数据 集 
与 新 数据 集 也 元 特征 之 间 的 距离 L 对 之 前 数据 集 进行 排序 。 最 后 ， 根 据 排序 选择 k=25 
个 用 于 评估 的 最 近 数 据 集 所 存储 的 ML 框架 的 实例 ， 并 使 用 它们 的 结果 来 热 启动 贝 叶 斯 
优化 。 

为 了 特征 化 数据 集 ， 本 书 基 于 参考 文献 总 共 实现 了 38 个 元 特征 ， 包 括 简单 的 、 信 
息 论 的 和 统计 的 元 特征 U^ 下 ， 如 数据 点 数量 、 特 征 和 类 别 的 统计 ， 以 及 数据 偏 度 和 目标 
AED AR. 想 要 了 解 这 些 元 特征 的 具体 信息 , 可 以 参阅 补充 材料 [20] 的 表 1。 需要 注意 的 是 ， 
本 书 剔 除了 显著 而 有 效 的 标记 型 元 特征 路 〈 用 于 衡量 简单 的 基 学 习 器 性 能 ) ， 因 为 它 
们 的 计算 代价 过 于 巨大 ， 对 在 线 评估 没有 什么 帮助 。 另 外 ， 在 实际 任务 中 发 现 ， 元 学 习 
方法 的 能 力主 要 来 自 数据 集 仓库 的 可 用 性 。 随 着 近期 的 一 些 新 举措 (如 OpenML"!) ， 
预计 随 着 时 间 的 推移 ， 可 用 数据 集 的 数量 会 越 来 越 多 ， 使 得 元 学 习 的 重要 性 进一步 得 到 
提升 。 
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6.3.2 ”集成 的 自动 构建 


虽然 贝 叶 斯 超 参 优化 在 寻找 最 佳 性 能 的 超 参 设置 方面 可 以 高 效 地 利用 数据 ， 不 过 当 目 
标 仅仅 是 做 出 好 的 预测 时 ， 该 优化 过 程 会 非常 浪费 资源 : 因为 搜索 过 程 中 训练 的 所 有 模型 
都 被 丢弃 了 ,通常 会 包括 那些 与 最 佳 模型 性 能 较为 接近 的 模型 。 与 直接 丢弃 这 些 模型 不 同 
本 文 会 对 这 些 模型 进行 存储 ， 并 采用 一 个 高 效 的 后 处 理 方法 〈 可 以 在 第 二 个 过 程 中 动态 
运行 ) 对 它们 进行 集成 的 构建 。 集 成 的 自动 构建 避免 了 最 后 只 使 用 单个 超 参 设置 ， 因 此 
比 标准 超 参 优 化 方法 所 生成 的 单 点 估计 更 为 鲁 棒 且 不 容易 产生 过 拟 合 。 据 我 们 所 知 ， 本 
书 是 第 一 篇 做 出 这 种 简单 观察 的 工作 ， 该 观察 可 用 于 改进 任何 贝 叶 斯 超 参 优化 方法 。®? 

众所周知 ， 集 成 的 性 能 通常 优 于 单个 模型 的 性 能 性 嫉 ， 并 且 有 效 的 集成 可 以 从 模 
型 库 中 创建 8 年。 而 当 模 型 具有 较 强 的 独立 性 及 能 够 产生 不 相关 的 误差 时 ， 集 成 的 性 能 
会 更 好 。 由 于 单个 模型 本 质 上 较为 不 同 是 更 有 可 能 发 生 的 ， 所 以 集成 的 构建 特别 适合 于 
组 合 灵活 机 器 学 习 框架 的 强 实例 。 

然而 ， 简 单 建立 一 个 由 贝 叶 斯 优化 发 现 的 所 有 模型 的 均匀 加 权 集成 ， 在 实际 任务 中 
并 不 能 很 好 地 工作 。 相 反 ， 使 用 所 有 单个 模型 在 保留 数据 集 上 的 预测 值 来 调整 它们 各 自 
的 权重 是 至 关 重 要 的 。 本 书 尝试 了 多 种 优化 这 些 权重 的 方法 ， 如 受 加 的 、 免 梯度 的 数值 
优化 和 方法 集成 选择 中。 在 实际 任务 中 发 现 ， 数 值 优化 和 耸 加 方法 都 很 容易 在 验证 集 上 
产生 过 拟 合 ， 并 且 计算 开销 较 大 ， 而 方法 集成 选择 的 计算 速度 快 且 更 为 健壮 。 简 单 来 说 ， 
集成 选择 〈 具 体内 容 见 卡 鲁 阿 纳 等 的 工作 0) 是 一 种 贪 楚 算 法 ， 即 从 空 的 集成 开始 ， 随 
后 迭代 地 增加 能 够 使 得 集成 验证 损失 最 小 的 模型 (采用 相同 的 权重 ， 但 允许 重复 )。 本 
书 的 所 有 实验 都 使 用 了 该 技术 ， 即 使 用 有 替换 的 选择 法 上 四 来 构建 一 个 规模 为 50 的 集成 。 
另外 ， 使 用 与 贝 叶 斯 优化 相同 的 验证 集 来 计算 集成 的 损失 。 


6.4 Auto-sklearn 系统 


为 了 设计 一 个 健壮 的 AutoML 系统 ， 本 章 选 择 Scikit-learn™) 作为 底层 的 机 器 学 习 


(D 在 本 章 四 发 表 时 ， 埃 斯 卡 兰 特等 的 工作 na 和 比 格 尔 及 保利 的 工作 四 也 将 集成 作为 AutoML 系统 的 一 个 
后 处 理 步骤 ， 以 改进 模型 的 泛 化 能 力 。 然 而 ， 这 两 项 工作 只 是 将 学 习 模型 和 一 个 预定 义 的 策略 进行 结合 ， 并 
没有 基于 单个 模型 的 性 能 来 自动 构建 集成 。 
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HEAR, Scikit-learn 是 较为 著名 且 被 广泛 使 用 的 机 器 学 习 库 之 一 。 它 提供 了 大 量 建 立 良 好 
且 有 效 实现 的 机 器 学 习 算法 ， 而 且 易 于 专家 和 新 手 使 用 。 由 于 本 文 所 设计 的 AutoML 系 
统 与 Auto-WEKA 非常 相似 ， 且 类 似 于 基于 Scikit-learn 的 Hyperort-sklearn， 所 以 称 为 
Auto-sklearn。 

图 6.2 为 Auto-sklearn 的 机 器 学 习 管道 和 相应 组 件 的 示意 图 ， 其 包含 了 15 个 分 类 算 
Wk. 14 个 特征 预 处 理 方法 和 4 个 数据 预 处 理 方法 。 对 它们 每 个 方法 都 进行 参数 化 ， 最 终 
获得 一 个 具有 110 个 超 参 的 搜索 空间 。 其 中 的 大 多 数 超 参 是 条 件 型 超 参 ， 即 只 有 当 对 应 
的 组 件 被 选中 时 才 会 激活 相应 的 超 参 , 而 SMAC 四方 法 可 以 很 好 地 处 理 这 些 条 件 型 超 参 。 


6.2 ”结构 化 的 配置 空间 


EB 其 中 ， 方 框 表示 父 超 参 ， 圆 角 框 表 示 叶 子 超 参 。 灰 色 框 主要 表示 活动 的 超 参 ， 这 些 超 参 组 成 示例 
性 的 配置 和 机 器 学 习 管道 。 每 一 条 管道 都 含有 1 个 特征 预 处 理 器 、! 个 分 类 器 和 至 多 3 个 数据 预 处 理 器 ， 
外 加 这 些 方法 的 超 参 。 


表 6.1 列 出 了 Auto-sklearn 中 的 15 个 分 类 算法 , 它们 属于 不 同 的 类 别 : 一 般 线 性 模型 ， 
2 个 ; 支持 向 量 机 ，2 个 ; 判别 分 析 ，2 个 ; 最 近邻 方法 ,1 个 ; 朴素 贝 叶 斯 ，3 个 ; 决策 树 ， 
1 个 ; 集成 方法 ，4 个。 与 Auto-WEKAM™ (具体 内 容 可 参阅 第 4 章 ) 不 同 的 是 ，Auto- 
sklearn 将 配置 空间 集中 在 基 分 类 器 上 ， 并 排除 了 自身 可 通过 一 个 或 更 多 基 分 类 器 来 参数 
化 的 元 模型 和 集成 方法 。 然而 这 样 的 集成 会 使 得 Auto-WEKA 的 超 参 数量 增加 近 5 fi GA 
到 786 +) ， 但 是 在 Auto-sklearn 中 仅仅 只 有 110 个 超 参 。 本 章 主要 采用 6.3.2 节 中 所 设 
计 的 后 续 方 法 来 构建 复杂 的 集成 。 相 比 于 Auto-WEKA, 该 方法 在 数据 利用 上 会 更 加 高 效 。 
具体 而 言 ， 在 Auto-WEKA 中 ， 评 估 一 个 含有 5 个 组 件 的 集成 的 性 能 ， 需 要 构建 和 评估 
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t 


5 个 模型 ， 而 在 Auto-sklearn 中 ， 集 成 的 自由 度 非常 大 ， 可 以 混合 和 匹配 优化 过 程 中 任 
意 时 间 所 评估 模型 。 

另外 ， 表 6.1 也 列 出 了 Auto-sklearn 中 针对 稠密 二 分 类 数据 集 的 预 处 理 方法 ， 主 要 
由 数据 预 处 理 器 〈 用 于 更 改 特征 值 ， 并 总 是 在 适用 时 被 使 用 ) 和 特征 预 处 理 器 〈 用 于 改 
变 实际 的 特征 集 ， 并 且 只 使 用 其 中 的 一 个 或 者 一 个 都 不 用 ) 所 组 成 。 数 据 预 处 理 包含 输 
入 值 缩 放 、 缺 失 值 填充 、 独 热 编 码 以 及 目标 类 别 的 平衡 。 而 13 个 可 用 的 特征 预 处 理 方 
法 可 以 被 分 成 以 下 几 组 : 不 进行 任何 处 理 ，1 个 ; 特征 选择 ，2 个 ， 核 近似 ，2 个 ， 拢 阵 
分 解 ，3 个 ; 嵌入 ，1 个 ; 特征 聚 类 ，1 个 ;特征 多 项 式 扩展 ，1 个 ;使 用 分 类 器 进行 特 
征 选择 的 方法 ，2 个 。 举 例 而 言 ， 拟 合 数据 的 Z 正则 化 线性 支持 向 量 机 可 以 通过 消除 零 
值 模型 系数 所 对 应 的 特征 来 实现 特征 选择 。 


表 6.1 稠密 表示 的 二 分 类 数据 集中 ， 每 个 分 类 器 和 每 个 特征 预 处 理 方法 的 超 参 数量 


分 类 器 类 型 类 别 型 超 参 ( 条 件 ) 连续 型 超 参 ( 条 件 ) 


AdaBoost (AB) | 4 | 1 (一 ) 3 (一 ) 
wm p | 4 | 1€» | 3€co | 
meee | 一 |  — | 一 J| 
jeer cca | 6 | 一 | eco || 
线性 判别 分 析 ano | 4 | 1 (一 ) 3 (一 ) 
2 (一 ) 2 (一 ) 
2 (一 ) 5 (2) 
多 项 式 朴 素 贝 叶 斯 1(—) 1 (一 ) 
被 动 攻击 1 (—) 20 
二 次 判别 分 析 (QDA) 一 2 (一 ) 
随机 森林 CRF) 2 (— 3 (— 
线性 分 类 器 (SGD) 4 (一 ) 6 (3) 
预 处 理 方法 类 别 型 超 参 ( 条 件 ) 连续 型 超 参 ( 条 件 ) 
极限 随机 树 预 处 理 5 2 一 ) 3 (—) 
快速 ICA 4 3 (一 ) 1 (1) 
特征 凝聚 4 E 1 (一 ) 
核 PCA 5 tic 4 (3) 
随机 尝试 法 2 = 2 (— 
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预 处 理 方法 类 别 型 超 参 ( 条 件 ) 连续 型 超 参 ( RH) 
线性 SVM 预 处 理 PC) 2) 
不 做 预 处 理 
Nystroem 采样 器 
主 成 分 分 析 (PCA) 


Ed 一 表示 无 。 针 对 稀疏 二 分 类 和 稀疏 / 稠密 多 分 类 数据 集 的 相关 表格 〈 即 表 2a、3a、4a、2b、3b 和 
4b) 可 以 参阅 材料 [20] 的 下 部 分 。 表 格 对 具有 离散 值 的 类 别 型 超 参 ( 简 写 为 ca 和 连续 型 的 数值 超 参 ( 简 
GA cont) 进行 了 区 分 。 括 号 内 的 数值 主要 表示 条 件 型 超 参 (简写 为 cond) ， 只 有 当 另 一 个 超 参 具 有 
特定 值 时 才 会 相关 。 

关于 Auto-sklearn 中 所 使 用 的 机 器 学 习 算 法 的 具体 描述 ， 主 要 参考 了 补充 材料 [20] 
的 A.1 WA A.2 节 ， 以 及 Scikit-learn 文档 85) 和 里 面 的 引用 文献 。 

为 了 最 大 程度 地 利用 计算 能 力 ， 以 及 避免 陷入 某 个 预 处 理 和 机 器 学 习 算法 特定 组 合 的 
长 时 运行 ， 本 章 实 现 了 几 个 措施 。 首 先 ， 限 制 机 器 学 习 框 架 实例 每 次 评估 的 时 间 ， 同 时 限 
制 评估 的 内 存 使 用 空间 ， 以 防止 操作 系统 的 交换 和 冻结 。 当 评估 不 满足 这 些 限 制 条 件 的 某 
一 个 时 ， 该 评估 会 自动 终止 ， 并 返回 给 定 评价 指标 上 的 最 差 可 能 分 数 。 对 于 一 些 模型 ， 本 
章 会 采用 迭代 式 训练 方法 。 在 这 些 模型 达到 限制 条 件 终止 之 前 ， 持 续 监测 这 些 模 型 并 返回 
这 些 模型 的 当前 性 能 值 。 为 了 进一步 降低 过 长 运行 的 总 量 ，Auto-sklearn 会 禁止 一 些 预 处 
理 器 和 分 类 算法 的 组 合 。 特 别 地 ，Auto-sklearn 会 禁止 核 近 似 方法 与 非 线 性 方法 、 基 于 树 
的 方法 及 KNN 算法 进行 结合 。 在 SMAC 方法 中 ，Auto-sklearn 会 对 这 类 禁止 的 组 合 进行 
处 理 。 出 于 同样 的 原因 ，Auto-sklearn 省 去 了 特征 学 习 算法 ， 如 字典 学 习 。 

超 参 优化 的 另 一 个 问题 是 过 拟 合 和 数据 重 采样 ， 因 为 需要 将 AutoML 系统 中 的 训练 
数据 分 成 两 个 数据 集 : 一 个 数据 集 用 于 训练 机 器 学 习 管 道 ， 即 训练 集 ， 另 一 个 数据 集 用 
于 计算 贝 叶 斯 优化 的 损失 函数 ， 即 验证 集 。 在 这 里 ， 需 要 权衡 是 运行 一 个 更 为 健壮 的 交 
叉 验 证 〈 其 在 SMAC 中 只 需要 很 少 的 额外 开销 〉 还 是 评估 模型 在 所 有 交叉 验证 折合 上 的 
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效果 ， 以 更 好 地 基于 这 些 模型 进行 集成 的 构建 。 因 此 ， 对 于 6.6 节 中 时 间 严 格 限制 为 1h 
的 任务 ， 直 接 采 用 简单 的 训练 / 测试 集 划分 。 而 对 于 6.5 节 和 6.7 节 中 时 间 限 制 为 24h 和 
30h 的 任务 ， 采 用 10 折 交 叉 验 证 的 方式 对 数据 集 进行 划分 。 

最 后 ， 需 要 注意 的 是 ， 并 非 所 有 的 有 监督 学 习 任 务 〈 如 多 目标 分 类 任务 ) 都 能 通过 
Auto-sklearn 中 的 可 用 算法 来 求解 。 因 此 ， 对 于 一 个 给 定 的 新 数据 集 ，Auto-sklearn 首先 
会 预选 适合 该 数据 集 属性 的 方法 。 由 于 Scikit-learn 方法 仅 限 于 数值 型 输入 值 ， 所 以 总 
是 会 在 类 别 型 特征 上 应 用 独 热 编码 技术 来 转换 数据 。 为 了 保持 较 低 数量 的 虚拟 特征 ， 在 
Auto-sklearn 中 配置 了 一 个 百分比 阀 值 ， 并 将 出 现 频率 低 于 该 百分比 阔 值 的 值 转换 成 一 
个 特殊 的 其 他 值 891, 


6.5 Auto-sklearn 的 对 比试 验 


作为 一 个 基准 实验 , 本 节 对 普通 Auto-sklearn ( 即 没 有 采用 元 学 习 和 集成 自动 构建 ) 、 
Auto-WEKA (具体 内 容 见 第 4 章 ) 及 Hyperopt-sklearn (具体 内 容 见 第 5 章 ) 之 间 的 性 
能 进行 比较 ， 即 采用 介绍 Auto-WEKA 那 篇 论文 名 中 的 21 个 数据 集 复 现 了 实验 过 程 ( 数 
据 集 的 具体 介绍 见 第 4 章 的 表 4.1) 。 参 照 Auto-WEKA 论文 的 实验 设置 方式 ， 本 章 采 
用 相同 的 数据 集 划分 方式 外、30h 的 挂钟 时 间 限 制 、10 折 交 叉 验 证 (其 中 在 每 个 折 县 上 
的 评估 时 间 限 制 为 15min》， 以 及 在 每 个 数据 集 上 使 用 SMAC 运行 10 次 独立 的 优化 。 
正如 在 Auto-WEKA 中 一 样 ， 通 过 SMAC 的 增强 过 程 可 以 加 快 评估 的 速度 。 具 体 而 言 ， 
只 有 当 正 在 被 评估 的 配置 有 可 能 优 于 目前 为 止 的 最 佳 配置 时 ， 才 会 安排 在 新 交叉 验证 折 
LENZI e. KERA k Hyperoptsklearn 系统 ， 其 总 是 使 用 80/20 的 训练 集 / 测 
试 集 划 分 方式 。 另 外 ， 所 有 的 实验 都 运行 在 主 频 为 2.6 GHz、 内 存 为 4 GB 的 Intel Xeon 
E5-2650 v2 8 核 处 理 器 上 ， 并 且 采 用 的 都 是 Auto-WEKA 0.5 和 Scikit-learn 0.16.1。 在 实 
验 中 ， 人 允许 机 器 学 习 框架 使 用 3 GB 的 内 存 ， 并 将 剩余 部 分 留 给 SMAC。 

表 6.2 展示 了 本 节 的 实验 结果 。 由 于 本 次 实验 的 设置 严格 遵从 了 原 Auto-WEKA 论 
文中 的 步骤 ， 作 为 完整 性 检查 ， 本 节 对 由 本 章 Auto-WEKA 实验 所 获得 的 数值 K 6.2 
的 第 二 行 ) 与 Auto-WEKA 作者 所 给 出 的 数值 ( 见 第 4 章 ) 进行 比较 ， 发 现 整体 上 实 
验 结果 是 合理 的 。 此 外 ， 由 表 6.2 可 知 ， 在 6 个 实例 上 ，Auto-sklearn 的 表现 明显 优 于 
Auto-WEKA, 在 12 个 实例 上 与 之 持平 ,在 3 个 实例 上 劣 于 Auto-WEKA。 进 一 步 分 析 发 现 ， 
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对 于 Auto-WEKA 表现 最 好 的 3 个 数据 集 ， 它 在 超过 50% 的 运行 中 所 选择 的 最 佳 分 类 器 

〈 带 有 剪 枝 单 元 的 树 ) 在 Scikit-learn 中 还 没有 被 实现 。 目 前 为 止 ，Hyperopt-sklearn 更 
多 的 是 一 种 概念 验证 〈 邀 请 用 户 根据 他 们 自身 的 需要 来 调整 配置 空间 ) ， 而 非 一 个 完整 
的 自动 机 器 学 习 系统 。 当 出 现 稀 疏 数据 和 缺失 值 时 ， 目 前 的 Hyperopt-sklearn 版 本 会 出 
现 崩 溃 情 况 。 除 此 之 外 ， 它 在 Cifar-10 数据 集 上 由 于 内 存 限制 的 原因 也 会 出 现 崩 省 情况 ， 
设置 内 存 限 制 主要 是 为 了 公平 地 比较 所 有 的 优化 器 。 在 16 个 Hyperopt-sklearn 可 以 运行 
的 数据 集 上 ， 它 在 其 中 9 个 数据 集 上 的 表现 持平 于 最 具 竞 争 力 的 AutoML 系统 ， 在 剩 下 
的 7 个 实例 中 劣 于 最 佳 AutoML 系统 。 


6.6 Auto-sklearn 改进 项 的 评估 


为 了 评估 Auto-sklearn 系统 在 大 范围 数据 集 上 的 鲁 棒 性 和 一 般 适 用 性 ， 本 节 从 
OpenML 存储 库 9! 中 收集 了 140 个 二 分 类 数据 集 和 多 分 类 数据 集 。 需 要 注意 的 是 ， 只 
选择 那些 至 少 具有 1 000 个 数据 点 的 数据 集 ， 以 便 进 行 鲁 棒 性 评估 。 这 些 数 据 集 涵 盖 了 
多 种 不 同类 型 的 应 用 ， 如 文本 分 类 、 数 字 和 字母 识别 、 基 因 序 列 和 RNA 分 类 、 广 告 、 
望远镜 数据 的 粒子 分 类 及 组 织 样本 中 的 癌症 检测 。 论 文 [20] 补充 材料 的 表 7 和 表 8 列 出 
了 所 有 数据 集 ， 并 给 出 了 它们 的 唯一 OpenML 标识 符 ， 以 便于 复 现 。 在 本 章 中 ， 将 每 个 
数据 集 随机 划分 成 2/3 的 训练 集 和 1/3 的 测试 集 。Auto-sklearn 只 能 访问 训练 集 ， 并 进 一 
步 对 训练 集 进行 划分 : 2/3 用 于 训练 剩 下 的 1/3 用 于 计算 SMAC 的 验证 损失 。 总 结 而 言 ， 
4/9 的 数据 用 于 训练 机 器 学 习 模 型 ，2/9 的 数据 用 于 计算 它们 的 验证 损失 ， 剩 下 的 3/9 用 
于 生成 待 比较 的 不 同 AutoML 系统 的 测试 性 能 。 由 于 很 多 数据 集 上 的 类 别 分 布 十 分 不 均 
衡 ， 所 以 会 采用 一 个 称 为 平衡 分 类 错误 率 (BER) 的 指标 来 评估 所 有 的 AutoML 方法 。 
平衡 分 类 错误 率 的 计算 方式 为 每 个 类 上 错误 分 类 比例 的 均值 。 与 标准 分 类 错误 相 比 《〈 即 
整体 错误 的 均值 ) ， 该 指标 〈 类 上 错误 的 均值 ) 能 够 平等 对 待 每 一 个 类 别 。 实 际 上 ， 在 
机 器 学 习 竞 赛 中 ， 会 经 常 使 用 平衡 错误 或 准确 度 指 标 ， 如 AutoML 挑战 赛 四 (会 在 第 
10 章 进 行 具体 介绍 ) 。 

在 每 个 数据 集 上 ， 对 于 采用 元 学 习 和 不 采用 元 学 习 的 Auto-sklearn 分 别 执行 10 次 运 
行 ， 对 于 采用 集成 构建 和 不 采用 集成 构建 的 Auto-sklearn 同样 分 别 执行 10 次 运行 。 为 了 
研究 它们 在 严格 时 间 约 束 下 的 性 能 ， 同 时 由 于 受到 计算 资源 的 限制 ， 本 章 将 每 次 运行 的 
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CPU 时 间 限 制 在 1h， 评 估 单 个 模型 的 运行 时 间 限 制 在 6min。 

为 了 不 评估 已 用 于 元 学 习 的 数据 集 上 的 性 能 ， 本 章 会 采用 留 一 验证 法 ， 即 当 评 估 数 
HEDE, RER 139 个 其 他 数据 集 上 的 元 信息 。 

图 6.3 展示 了 随 着 时 间 的 推移 , 4 个 不 同 Auto-sklearn 测试 版 本 平均 排序 的 变化 趋势 。 
由 图 6.3 可 知 ， 采 用 了 改进 项 〈 即 元 学 习 和 集成 自动 构建 ) 的 版 本 的 性 能 明显 优 于 普通 


一 普通 Auto-sklearn 
E 2.6 f| — Auto-sklearn + 集 
xL 一 Auto-sklearn + 元 学习 
Ei 24 || — Auto-sklearn + 元 学 习 + FEM 


500 1000 1500 2 000 2 500 3 000 3 500 
时 间 /s 
(a) 


v3 


普通 Auto-sklearn 
Auto-sklearn + 


Auto-sklearn + 70°# 2] 
Auto-sklearn + 元 学 习 十 集成 


10! 10 
时 间 /s 
(b) 
图 6.3 4 个 Auto-sklearn 变 体 在 140 个 数据 集 上 的 平均 排序 


图 : 该 排序 主要 基于 测试 集 上 的 平衡 错误 率 (BER) 。 需 要 注意 的 是 ， 排 序 是 性 能 的 一 个 相对 指标 〈 这 
里 ， 所 有 方法 的 排序 相 加 之 和 为 10) ， 因 此 一 个 方法 在 BER 上 的 提升 会 弱化 另 一 个 方法 的 BER 结果 。 
具体 而 言 ， 〈a) 图 为 在 线性 的 x 尺 度 上 绘制 数据 点 ， (b) 图 的 数据 点 与 (a) 图 的 数据 点 相同 ， 不 同 
的 是 在 对 数 的 x 尺度 上 绘制 数据 点 。 由 于 元 学 习 和 集成 选择 需要 少量 的 额外 运算 开销 ， 所 以 普通 Auto- 
sklearn 能 够 在 最 初 10s 内 取得 最 好 的 排序 结果 ， 因 为 它 能 够 在 其 他 Auto-sklearn 变 体 完成 第 一 个 模型 
的 训练 之 前 进行 预测 。 在 此 之 后 ， 元 学 习 很 快 就 展示 出 性 能 优势 。 
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Auto-sklearn。 令 人 印象 最 为 深刻 的 是 元 学 习 在 它 所 选择 的 第 一 个 配置 上 就 获得 了 很 好 的 
性 能 , 一 直 持续 到 实验 结束 。 值 得 注意 的 是 , 在 开始 阶段 性 能 提升 的 效果 最 为 明显 。 另 外 ， 
随 着 时 间 的 推移 ， 普 通 Auto-sklearn 也 能 够 在 不 使 用 元 学 习 的 前 提 下 找到 好 的 解决 方案 ， 
使 得 它 在 一 些 数据 集 上 取得 较 好 的 性 能 ， 进 而 整体 上 提升 排名 。 

除 此 之 外 ， 由 实验 结果 可 知 本 章 所 提出 的 两 项 改进 彼此 之 间 可 以 相互 补充 ， 因 为 集 
成 的 自动 构建 同时 提升 了 普通 的 Auto-sklearn 和 具有 元 学 习 的 Auto-sklearn 的 性 能 。 有 
趣 的 是 ， 集 成 对 性 能 的 影响 在 元 学 习 版 本 中 会 开始 得 更 早 。 一 个 主要 的 原因 在 于 ， 元 学 
习 能 够 较 早 地 产生 更 好 的 机 器 学 习 模型 ， 这 些 模型 可 以 直接 被 组 合成 一 个 较 强 的 集成 。 
随 着 运行 时 间 的 增加 ， 不 具有 元 学 习 的 Auto-sklearn 也 能 受益 于 自动 集成 构建 。 


6.7 Auto-sklearn 组 件 的 详细 分 析 


本 节 着 重 研究 Auto-sklearn 中 的 单个 分 类 器 和 预 处 理 器 ， 并 与 这 些 方法 的 联合 优化 
进行 比较 ， 以 了 解 这 些 方 法 的 峰值 性 能 和 和 鲁 棒 性 。 理 想 情 况 下 ， 更 倾向 于 独立 地 研究 单 
个 分 类 器 和 单个 预 处 理 器 的 所 有 组 合 ， 然 而 Auto-sklearn 具有 15 个 分 类 器 和 14 个 预 处 
理 器 时 ， 在 实际 环境 中 优化 已 经 变 得 难以 实行 。 取 而 代 之 的 是 ， 在 研究 单个 分 类 器 的 
性 能 时 ， 仍 会 在 所 有 的 预 处 理 器 上 进行 优化 ， 在 研究 单个 预 处 理 器 的 性 能 时 类 似 ， 即 仍 
会 在 所 有 的 分 类 器 上 进行 优化 。 为 了 获得 一 个 更 为 详细 的 分 析 ， 本 节 实 验 会 集中 在 部 分 
数据 集 上 ， 但 是 将 用 于 优化 所 有 方法 的 配置 预算 时 间 从 1h 延长 到 14d， 对 于 完整 Auto- 
sklearn， 则 延长 到 2d。 有 具体 而 言 ， 基 于 数据 集 的 元 特征 采用 g-means! 方法 将 140 个 数 
据 集聚 成 13 类 ， 并 从 每 个 聚 类 中 选择 一 个 代表 性 数据 集 以 供 使 用 。 另 外 ， 所 有 这 些 实 
验 总 共 需 要 的 运算 时 间 为 10.7 CPU 年 。 表 6.3 给 出 了 所 选 数据 集 的 基本 信息 。 


表 6.3 从 13 个 聚 类 结果 中 所 选择 出 的 代表 性 数据 集 的 具体 信息 
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名 


MNIST 

Quake 
fri_cl_1000_25(binarized) 
pc4 

KDDCup09 Appetency 


Magic Telescope 


OVA Breast = 510 


2000 
ER: 一 表示 默认 值 ，X 表示 未 知 值 。 

K 6.4 比较 了 不 同 分 类 算法 和 Auto-sklearn 的 实验 结果 。 结 果 整 体 上 比较 符合 预期 ， 
随机 森林 、 极 限 随机 树 、AdaBoost 和 梯度 提升 具有 最 强 的 鲁 棒 性 ， 支 持 向 量 机 在 部 分 数 
据 集 上 具有 最 佳 的 峰值 性 能 。 除了 这 些 较 强 的 分 类 器 之 外 ,还 存在 一 些 效果 欠 佳 的 模型 : 
在 大 部 分 数据 集 上 ， 决 策 树 、 被 动 攻击 方法 、KNN、 高 斯 朴素 贝 叶 斯 、LDA 和 QDA 都 
明显 差 于 最 佳 分 类 器 。 根 据 表 6.4 中 的 结果 可 以 发 现 ， 没 有 哪个 方法 在 所 有 的 数据 集 上 
都 能 取得 最 佳 表现 。 另 外 ， 基 于 表 6.4 的 结果 和 图 6.4 两 个 示例 数据 集 的 可 视 化 可 知 ， 
优化 Auto-sklearn 的 联合 配置 空间 能 够 取得 最 强 的 鲁 棒 性 。 基 于 时 间 的 排序 变化 图 C 
充 材料 [20] 中 的 图 2 和 图 3) 量化 了 Auto-sklearn 在 13 个 数据 集 上 的 性 能 变化 趋势 ， 表 
明 Auto-sklearn 能 够 以 一 个 合理 但 并 非 最 优 的 性 能 开始 优化 ， 并 且 可 以 随 着 时 间 的 推移 ， 
有 效 地 搜索 到 能 收敛 到 最 佳 全 局 性 能 的 更 为 一 般 化 的 配置 空间 。 

K 6.5 对 比 了 不 同 预 处 理 器 和 Auto-sklearn 的 实验 结果 。 如 前 面 在 分 类 器 上 的 比较 
类 似 , Auto-sklearn 同样 具有 最 强 的 鲁 棒 性 。 具 体 而 言 , 它 在 其 中 的 3 个 数据 集 上 表现 最 佳 ， 
在 另外 8/13 个 数据 集 上 与 最 佳 预 处 理 的 性 能 不 具有 统计 意义 上 的 差异 。 
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平衡 错误 率 


10? 10% 


105 
时 间 /s 
(b) 


图 6.4 ” 单 分 类 器 和 完整 Auto-sklearn 随 着 时 间 的 性 能 变化 趋势 


ER 其 中 ， (a) 图 为 MNIST 数据 集 上 的 实验 结果 (OpenML 的 数据 集 ID 为 554) ， (b) 图 为 pc4 
数据 集 上 的 实验 结果 (OpenML 的 数据 集 ID 为 1049) 。 图 中 展示 了 分 别 优化 3 个 分 类 器 和 优化 联合 
空间 的 各 自 测试 误差 率 的 中 位 数 、 第 5 百 分 位 数 及 第 95 百 分 位 数 。 另 外 ， 可 以 参阅 补充 材料 [20] 的 图 
4 以 查看 所 有 分 类 器 的 实验 结果 。 虽 然 Auto-sklearn 在 一 开始 表现 较 差 ， 但 最 终 它 的 性 能 可 以 接近 最 佳 
方法 的 性 能 。 
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6.8 讨论 与 总 结 


介绍 完 本 章 的 实验 验证 之 后 ， 本 节 对 本 章 内容 做 一 个 总 结 ， 主 要 包括 简要 的 讨论 、 
简单 的 Auto-sklearn 使 用 示例 、 近 期 扩展 的 简短 回顾 及 未 来 工作 的 展望 。 


6.8.1 讨论 


实验 部 分 已 证 明 本 章 所 设计 的 新 AutoML 系统 Auto-sklearn 能 够 优 于 先前 最 好 的 
AutoML 系统 ， 并 且 针 对 AutoML 所 提出 的 两 项 改进 〈 元 学 习 和 集成 构建 ) 能 够 进一步 
提高 系统 的 效率 和 健壮 性 。 除 此 之 外 ，Auto-sklearn 在 ChaLearn 的 首届 自动 机 器 学 习 
挑战 赛 中 ， 赢 得 了 自动 任务 5 个 阶段 中 的 3 个 〈 包 括 最 后 两 个 ) ， 进 一 步 证 明了 Auto- 
sklearn 的 有 效 性 和 健壮 性 。 在 本 章 中 ， 并 没有 采用 循环 和 数 周 CPU 能 力 来 与 专家 一 起 
评估 Auto-sklearn 在 交互 式 机 器 学 习 中 的 使 用 情况 。 但 值得 注意 的 是 ， 这 种 模式 在 首届 
ChaLearn 自动 机 器 学 习 挑战 赛 的 人 类 阶段 (又 称 为 终局 阶段 中 取得 了 3 次 第 一 名 ( 除 
了 自动 阶段 之 外 ， 特 别 是 表 10.5 中 的 终局 阶段 0-4) 。 基 于 此 ， 我 们 有 理由 相信 Auto- 
sklearn 对 于 机 器 学 习 新 手 和 专家 都 是 一 个 有 前 途 的 AutoML 系统 。 

自 原 NeurIPS 论文 外 发 表 以 来 ，Auto-sklearn 已 经 成 为 自动 机 器 学 习 新 方法 的 标准 基 
线 ， 如 Flash 9, Rectpe??, Hyperband, AutoPrognosis?, MLPlan'!, Auto-Stacker!!!! 和 
AlphaD3M"!, 


6.8.2 使 用 示例 


Auto-sklearn 这 篇 研究 工作 的 一 个 重要 成 果 是 auto-sklearn python 包 。 它 可 以 替代 任 
何 Scikit-learn 中 的 分 类 器 或 回归 器 ， 类 似 于 由 Hyperopt-sklearn??! 所 提供 的 分 类 器 。 使 
用 示例 如 下 : 


import autosklearn.classification 
cls = autosklearn.classification.AutoSklearnClassifier () 
cls.fit(X train, y train) 


predictions = cls.predict(X test) 
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可 以 在 Auto-sklearn 中 使 用 任意 的 损失 函数 和 重 采 样 策略 来 评估 验证 损失 。 除 此 
之 外 ， 还 可 以 扩展 Auto-sklearn 所 能 选择 的 分 类 器 和 预 处理 器 。 如 自 Auto-sklearn 最 初 
发 布 以 来 ， 增 加 了 回归 运算 的 支持 。 另 外 ，Auto-sklearn 包 的 开发 网 址 为 https://github. 
comy/automl/auto-sklearn， 可 以 通过 Python 打包 索引 pypi.org 来 获得 。 有 具体 文档 请 参阅 
网 址 automl.github.io/auto-sklearn. 


6.8.3 Auto-sklearn 的 扩展 


虽然 本 章 所 描述 的 Auto-sklearn 会 受 限于 只 能 处 理 规模 相对 较 小 的 数据 集 ， 但 在 近 
期 的 AutoML 挑战 赛 上 (运行 于 2018 年 的 AutoML 2， 具 体内 容 参 阅 第 10 章 ) ，Auto- 
sklearn 已 经 能 够 有 效 处 理 大 型 数据 集 。 举 例 而 言 ，Auto-sklearn 可 以 使 用 一 个 具有 25 个 
CPU 的 集群 在 两 天 之 内 处 理 几 十 万 个 数据 点 的 数据 集 ， 不 过 这 超出 了 AutoML 2 挑战 赛 
所 限制 的 时 间 预 算 (20min) 。 正 如 在 近期 的 研讨 论文 文献 [18] 中 所 详细 描述 的 ， 这 预 
示 着 开放 的 方法 也 可 以 考虑 包括 极端 梯度 提升 (特别 是 XGBoostI23)、 采 用 连续 减 半 芭 (在 
第 1 章 中 做 了 具体 介绍 ) 的 多 保 真 度 方法 来 求解 CASH 问题 ， 以 及 改变 元 学 习 方 法 。 接 
下 来 着 重 介绍 其 中 的 代表 性 系统 PoSH Auto-sklearn, 其 在 2018 挑 战 赛 中 取得 了 最 佳 成 绩 。 
另外 ，PoSH 为 组 合 连续 减 半 (Portfolio Successive Halving) 的 缩写 。 

开始 时 ，PoSH Auto-sklearn 会 在 具有 16 个 机 器 学 习 管 道 配置 的 固定 组 合 上 运行 连 
续 减 半 。 如 果 还 有 剩余 时 间 ， 它 将 采用 这 些 运行 结果 来 热 启动 一 个 贝 叶 斯 优化 和 连续 减 
半 的 组 合 。 这 16 个 管道 的 固定 组 合 的 获取 方式 如 下 ， 通 过 运行 贪 禁 子 模块 函数 最 大 化 
来 选择 一 个 彼此 之 间 可 以 互补 的 配置 集合 ， 该 配置 集合 能 够 很 好 地 优化 421 个 数据 集 上 
的 性 能 。 其 中 ， 配 置 该 优化 的 候选 配置 为 运行 于 此 421 个 数据 集 上 的 SMACEn 方法 所 找 
到 的 421 个 配置 ， 即 在 每 个 数据 集 上 都 会 得 到 一 个 配置 。 

这 里 所 使 用 的 能 够 在 更 短 的 时 间 窗 口内 产生 健壮 结果 的 贝 叶 斯 优化 和 连续 减 半 的 组 
合 方法 是 第 1 章 所 讨论 的 多 保 真 度 超 参 优化 方法 BOHB ( 贝 叶 斯 优化 与 超 带 〉 0 的 改进 
版 。 考 虑 到 多 保 真 度 方法 的 预算 ， 这 里 将 所 有 和 代 算 法 的 迭代 次 数 作为 预算 ， 而 支持 向 
量 机 则 是 将 数据 集 的 规模 作为 预算 。 

另 一 个 处 理 大 型 数据 集 的 Auto-sklearn 版 本 是 本 章 作者 目前 正在 进行 的 自动 深度 学 
习 方 面 的 工作 ， 会 在 接 下 来 的 Auto-Net 章节 中 进行 具体 讨论 。 
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6.8.4 总 结 与 展望 


在 Atuo-WEKA 的 自动 机 器 学 习 方 法 之 后 ， 本 章 介 绍 了 Auto-sklearn， 其 性 能 优 于 之 
前 最 好 的 AutoML 方法 。 同 时 ， 本 章 所 设计 的 元 学 习 和 集成 机 制 进 一 步 提升 了 AutoML 
方法 的 效率 和 和 鲁 棒 性 。 

虽然 Auto-sklearn 能 够 为 用 户 处 理 超 参 调 优 过 程 ， 但 是 Auto-sklearn 自身 也 拥有 一 
些 在 给 定时 间 预 算 内 影响 Auto-sklearn 性 能 的 超 参 ， 如 6.5 节 、6.6 节 和 6.7 节 所 讨论 的 
时 间 限 制 及 用 于 计算 损失 函数 的 重 采样 策略 。 本 章 作 者 在 之 前 的 工作 9 中 已 经 证 明 ， 
重 采 样 策略 的 选择 和 时 间 限 制 自身 就 可 以 作为 一 个 元 学 习 问 题 。 但 是 ， 本 章 更 倾向 于 将 
其 扩展 到 Auto-sklearn 用 户 可 决策 的 其 他 设计 选项 中 。 

自 撰写 文献 O 以 来 ， 元 学 习 领 域 所 取得 的 巨大 进展 为 Auto-sklearn 提供 了 更 多 能 够 
将 元 信息 包含 到 贝 叶 斯 优化 中 的 新 方法 。 预 计 使 用 第 2 章 所 讨论 的 新 方法 都 有 可 能 较 大 
幅度 地 改进 优化 过 程 。 

最 后 ， 拥 有 一 个 能 够 测试 数 百 个 超 参 配 置 的 全 自动 过 程 会 较 大 程度 提高 验证 集中 过 
拟 合 的 风险 。 为 了 避免 出 现 这 种 情况 ， 建 议 将 Auto-sklearn 与 第 1 章 所 讨论 的 技术 、 来 
自 差分 隐私 的 技术 1 或 其 他 仍 在 开发 的 技术 进行 结合 。 


CORN HARES (DEC) 所 提供 的 支持 , 相关 的 项 目 有 优先 项 目 自主 学 习 (SPP 
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概述 : AutoML 8] Jt (3E RC E E S — 9 Bx GT Eden CE SLE ETPLS AURIS 
本 章 主要 介绍 两 个 版 本 的 Auto-Net， 它 们 提供 了 无 须 人 工 干 预 的 能 自动 调 优 的 深度 神经 网 络 。 
其 中 ， 第 一 个 版 本 Auto-Net 1.0 主要 建立 在 采用 贝 叶 斯 优化 方法 SMAC 的 竞赛 获胜 系统 Auto- 
sklearn 的 基础 之 上 ， 并 采用 Lasagne 作为 它 的 底层 深度 学 习 (DL) 库 。 而 较 近 的 Auto-Net 2.0 则 
主要 建立 在 近期 的 BOHB 方法 ( 即 贝 叶 斯 优化 和 超 带 的 组 合 方法 ) 之 上 ， 并 采用 PyTorch 作为 它 
的 DL 库 。 据 我 们 所 知 ，Auto-Net 1.0 是 第 一 个 在 竞赛 数据 集 ( 第 一 届 AutoML 挑战 赛 的 一 部 分 ) 
上 赢 过 人 类 专家 的 自动 调 优 的 神经 网 络 。 进 一 步 的 实验 结果 表明 ， 集 成 了 Auto-sklearn 的 Auto- 
Net 1.0 的 表现 优 于 只 使 用 其 中 的 某 一 个 ， 而 Auto-Net 2.0 可 以 表现 得 更 好 。 


7.1 引言 


近年 来 ， 神 经 网 络 极 大 地 改进 了 各 种 基准 测试 的 性 能 水 平 ， 并 且 开 辟 了 很 多 极 具 潜 
力 的 新 研究 路 径 Uo. 27 36 99-41, 然而, 对 于 非 专 家 用 户 而 言 , 神经 网 络 并 非 那么 容易 上 手 ， 
因为 它们 的 性 能 极度 依赖 于 大 量 超 参 (如 学 习 率 和 权重 衰减 ) 的 正确 设置 及 架构 (如 网 
络 层 数 和 激活 函数 类 型 ) 的 合理 选择 。 本 章 主要 介绍 现成 有 效 的 基于 自动 机 器 学 习 方法 
的 神经 网 络 方面 的 工作 。 


(D 赫 克 托 . 门 多 萨 ， 亚 伦 。 克 菜 因 , 马 蒂 亚 斯 。 费 勒 , 约 斯 特 。 托 比 亚 斯 。 斯 普 林 根 贝 格 ， 马 蒂 亚 斯 。 厄 本 ， 
迈克 尔 。 ARR, GORA + MK, BAW HER, RAH. FH (DD 

德国 弗 莱 堡 大 学 计算 机 科学 系 。 

电子 邮箱 : fh@informatik.uni-freiburg.de. 
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AutoML 由 在 免费 为 专家 和 非 专家 用 户 提供 现成 有 效 的 学 习 系统 ， 使 他 们 脱离 那些 
需要 花费 大 量 时 间 和 精力 的 任务 ， 即 为 手头 的 数据 集 选择 合适 的 算法 、 预 处 理 方法 及 为 
这 些 所 涉及 的 组 件 设 置 合理 的 超 参 值 。 在 文献 [43] 中 ， 桑 顿 等 将 AutoML 问题 形式 化 成 
算法 选择 和 超 参 优化 的 组 合 (CASH) 问题 ， 即 需要 识别 出 具有 最 佳 CIE XO) 验证 性 能 
的 算法 成 员 组 合 。 

解决 CASH 问题 的 一 个 有 效 方法 是 将 交叉 验证 性 能 看 成 昂贵 的 黑 盒 函 数 ， 并 使 用 贝 
叶 斯 优化 弹 来 搜索 其 优化 器 。 然 而 贝 叶 斯 优化 通常 会 使 用 高 斯 过 程 思 ， 使 得 在 遇 到 
CASH 问题 的 特殊 属性 (高 维 ， 同 时 具有 类 别 型 超 参 和 连续 型 超 参 ， 较 多 条 件 型 超 参 ， 
即 只 在 其 他 超 参 取 某 些 实例 时 才 会 相关 ) 时 往往 会 存在 问题 。 调 整 高 斯 过 程 以 应 对 这 些 
特殊 属性 是 一 个 十 分 活跃 的 研究 领域 0 匆 ， 但 到 目前 为 止 ， 使 用 基于 树 的 模型 & 2 的 
贝 叶 斯 优化 方法 在 CASH 问题 中 仍 是 表现 最 好 的 中 91, 

Auto-Net 是 基于 Auto-WEKAII 和 Auto-sklearn !!! 这 两 个 主流 AutoML 系统 所 
构建 的 ， 这 两 个 系统 的 具体 内 容 请 参阅 本 书 的 第 4 章 和 第 6 章 。 这 两 个 系统 都 使 用 了 
基于 随机 森林 的 贝 叶 斯 优化 方法 SMACU 来 求解 CASH 问题 ， 即 分 别 在 WEKA"®l 和 
Scikit-learnt3 中 找到 分 类 器 的 最 佳 实例 化 。 而 在 Auto-sklearn 中 ， 使 用 了 两 个 额外 的 
方法 来 提升 性 能 : 四 采用 基于 之 前 数据 集 上 经 验 的 元 学 习 包 ， 进 而 能 够 从 好 的 超 参 配 
BU 中 热 启动 SMAC 方法 ; @@ 由 于 最 终 的 目标 是 做 出 好 的 预测 ， 所 以 尝试 几 十 个 机 
器 学 习 模型 后 只 使 用 其 中 最 好 的 一 个 是 非常 浪费 的 。 相 反 ，Auto-sklearn 存储 了 SMAC 
评估 过 的 所 有 模型 ， 并 使 用 集成 选择 技术 外 来 构建 这 些 模 型 的 集成 。 尽 管 Auto-WEKA 
和 Auto-sklearn 都 包含 了 广泛 的 有 监督 学 习 方法 ， 但 是 它们 都 还 没有 包含 现代 的 神经 网 
络 技术 。 

本 章 将 介绍 Auto-Net 系统 的 两 个 不 同 版 本 ， 以 填补 这 一 空白 。 其 中 ，Auto-Net 1.0 
主要 基于 Theano 来 实现 并 含有 一 个 相对 简单 的 搜索 空间 ， 而 较 近 期 的 Auto-Net 2.0 则 
是 基于 PyTorch 来 实现 的 ， 并 且 使 用 了 一 个 更 为 复杂 的 空间 及 更 多 深度 学 习 的 近期 进展 。 
它们 之 间 另 外 一 个 较 大 的 不 同 是 搜索 过 程 : Auto-Net 1.0 采用 SMACI 来 自动 配置 神经 
网 络 ， 与 Auto-WEKA 和 Auto-sklearn 中 的 AutoML 方法 相同 ;而 Auto-Net 2.0 则 采用 
BOHB 来 配置 神经 网 络 ，BOHB 为 贝 叶 斯 优化 (BO) 和 基于 超 带 (HB) 的 高 效 挑选 策 
略 03 的 组 合 。 

在 最 近 的 ChaLearn 自动 机 器 学 习 挑战 赛 思 上，Auto-Net 1.0 在 人 类 专家 竞赛 部 分 
的 两 个 数据 集 上 取得 了 最 佳 性 能 。 据 我 们 所 知 ， 这 是 全 自动 调 优 的 神经 网 络 首次 在 竞赛 
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数据 集 上 胜 过 人 类 专家 。Auto-Net 2.0 在 大 型 数据 集 上 进一步 改进 了 Auto-Net 1.0， 展 现 
了 该 领域 的 最 新 进展 。 

本 章 内 容 结构 如 下 : 7.2 节 介 绍 Auto-Net 1.0 的 配置 空间 和 实现 细节 ; 7.3 节 介 绍 
Auto-Net 2.0 的 配置 空间 和 实现 细节 ; 随后 ，7.4 节 具 体 研究 它们 的 性 能 表现 ， 最 后 ， 
7.5 节 对 本 章 内 容 进行 总 结 。 需 要 注意 的 是 ， 本 章 省 略 了 相关 工作 的 详细 讨论 ， 读 者 可 
以 直接 阅读 本 书 第 3 章 以 整体 了 解 神经 网 络 架构 搜索 这 一 极其 活跃 的 研究 领域 。 另 外 ， 
近期 也 出 现 了 一 些 其 他 遵循 Auto-Net 目标 〈 即 对 深度 学 习 进 行 自动 化 ) 的 工具 ， 如 
AutoKeras 1, Photon-AI, H20.ai. Devol 和 谷歌 云 AutoML 服务 。 

此 外 ， 本 章 主要 为 2016 年 发 表 于 ICML 自动 机 器 学 习 专题 讨论 会 上 介绍 Auto-Net 
的 论文 U9 的 扩展 版 本 ， 感 兴趣 的 读者 可 以 阅读 该 论文 。 


7.2 Auto-Net 1.0 


本 节 主 要 对 Auto-Net 1.0 和 它 的 实现 细节 进行 介绍 : 主要 通过 扩展 Auto-sklearn!!!! 
来 实现 Auto-Net 的 第 一 个 版 本 ， 即 在 Auto-sklearn 中 增加 了 一 个 新 的 分 类 (和 回归 ) 组 
件 。 之 所 以 会 选择 Auto-sklearn， 是 因为 它 支持 直接 利用 机 器 学 习 管 道中 的 已 有 部 分 : 
特征 预 处 理 、 数 据 预 处 理 和 集成 构建 。 本 章 将 Auto-Net 限制 在 全 连接 前 馈 神经 网 络 上 ， 
因为 它们 适用 于 广泛 的 不 同 数据 集 。 至 于 扩展 到 其 他 类 型 的 神经 网 络 〈 如 卷 积 或 循环 神 
经 网 络 ) ， 将 在 后 续 研究 中 着 重 考虑 。 为 了 获得 神经 网 络 技术 ，Auto-Net 1.0 使 用 了 围 
绕 Theano"? 而 建 的 Python 深度 学 习 库 Lasagnetil。 需 要 注意 的 是 ， 本 章 所 提出 的 方法 通 
常 与 神经 网 络 的 实现 相 独 立 。 

类 似 于 文献 [ 2，7]， 本 章 也 对 控制 网 络 结构 及 训练 过 程 中 与 层 无 关 的 网 络 超 参 以 及 
用 于 设置 每 层 的 与 层 相关 的 超 参 进 行 了 区 分 。 最 终 ， 需 要 对 63 个 超 参 (如 表 7.1 Pra) 
进行 优化 。 需 要 注意 的 是 ， 对 所 有 类 型 (二 分 类 、 多 类 别 分 类 、 多 标签 分 类 及 回归 任务 ) 
的 有 监督 学 习 任 务 都 采用 相同 的 配置 空间 。 另 外 ,稀疏 数据 集 也 会 共享 相同 的 配置 空间 。 
由 于 神经 网 络 无 法 直接 处 理 稀疏 表示 的 数据 集 ， 所 以 在 将 数据 输入 神经 网 络 之 前 ， 会 按 
批 次 地 将 数据 转换 成 稠密 表示 。 

第 个 网 络 层 的 超 参 数 ， 条 件 依 赖 于 前 x 层 的 网 络 。 出 于 实际 考虑 ， 本 章 将 网 络 层 
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数 限制 在 1 一 6 之 间 : 第 一 ， 旨 在 保证 单个 配置 的 训练 时 间 较 短 9;， 第 二 ， 每 层 向 网 络 
空间 增加 8 个 与 层 相关 的 超 参 ， 进 而 能 够 支持 附加 层 进一步 复杂 化 配置 过 程 。 

优化 神经 网 络 内 部 权重 最 为 常用 的 方法 是 通过 反 向 传播 计算 的 偏 导数 来 进行 随机 
梯度 下 降 (SGD) ， 而 标准 SGD 方法 的 效果 极度 依赖 于 学 习 率 超 参 的 正确 设置 。 为 了 
减缓 这 种 依赖 性 ， 研 究 者 提出 了 各 种 各 样 的 随机 梯度 下 降 方法 。Auto-Net 的 配置 空间 
包含 了 参考 文献 中 较为 著名 的 方法 : 普通 随机 梯度 下 降 (SGD) 、 动 量 随 机 梯度 下 降 
(Momentum) , AdamÜ!, Adadelta?,, Nesterov 动量 8! 和 Adagrad@l。 此 外 ， 在 Auto- 
Net 配置 空间 中 ， 还 采用 了 一 个 称 为 “smorm” 的 vSGD 优化 器 9" 的 变 体 ， 其 中 的 海 森 
估计 值 被 平方 梯度 〈 在 RMSprop 过 程 中 被 计算 ) 估计 值 所 蔡 代 。 需 要 注意 的 是 ， 每 个 
方法 都 具有 一 个 学 习 率 < 和 一 个 自身 相关 的 超 参 集合 ， 如 Adam 的 动量 向 量 刀 和 p,。 另 
外 ， 每 个 求解 方法 的 超 参 只 有 在 该 方法 被 选择 时 才 会 被 激活 。 

为 了 更 好 地 提高 学 习 的 效果 ， 本 章 采 用 如 下 策略 让 学 习 率 a 随 着 时 间 的 推移 进行 
衰减 〈 即 在 每 轮 (= 0…, 7 和 迭代 后 ， 将 最 初 的 学 习 率 乘 以 衰减 因子 Cay): 四 固定 策 
略 ， wu =1; 加 倒置 策略 ， ws =(1+71)C9 ;加 指数 策略 ， wu -yn 四 逐步 策略 ， 
Quay =y“。 其 中 ， 超 参 k、s 和 7y 条 件 性 地 依赖 于 策略 的 选择 。 

为 了 在 Auto-Net 1.0 的 条 件 搜索 空间 中 找到 表现 良好 的 实例 ， 类 似 于 Auto-WEKA 
和 Auto-sklearn， 本 章 也 采用 了 基于 随机 森林 的 贝 叶 斯 优化 方法 SMAC", SMAC 是 一 
种 随时 方法 ， 能 够 记录 到 目前 为 止 所 看 到 的 最 佳 超 参 配置 ， 并 能 够 在 终止 时 输出 该 最 佳 
配置 。 


7.3 Auto-Net 2.0 


Auto-Net 2.0 与 Auto-Net 1.0 的 不 同 主要 体现 在 以 下 3 个 方面 ， 后 文 会 对 这 3 个 方 
面 进行 具体 介绍 。 
a 首先 ， 深 度 学 习 库 使 用 的 是 PyTorchtz9 而 非 Lasagne; 
e 其 次 ， 它 使 用 了 更 大 的 配置 空间 [ 包括 最 新 的 深度 学 习 技 术 、 新 的 神经 网 络 结构 
(如 ResNets ) ] 和 更 为 紧凑 的 搜索 空间 表示 ; 


”主要 目的 在 于 能 够 在 2 天 的 时 间 预 算 内 在 单个 CPU 上 完成 几 十 个 配置 的 评估 过 程 。 
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= 最 后 ， 使 用 BOHB0ol 方法 取代 SMAC 方法 ， 进 而 能 更 加 高 效 地 获得 性 能 良好 的 

神经 网 络 。 
由 于 目前 停止 了 Lasagne 库 的 开发 和 维护 ， 所 以 为 Auto-Net 2.0 选择 了 一 个 不 同 的 
Python 库 。 目 前 ， 较 为 流行 的 两 个 深度 学 习 库 分 别 是 PyTorchtz 和 Tensorflow!!, 344 
上 ， 两 者 具有 非常 相似 的 功能 ， 主 要 的 区 别 是 它们 所 提供 的 详细 信息 的 级 别 。 举 例 而 
言 ，PyTorch 可 以 支持 用 户 追 踪 训 练 期 间 的 所 有 计算 过 程 。 这 两 个 库 各 有 优 缺 点 ， 考 虑 
到 PyTorch 动态 构建 计算 图 的 能 力 ， 本 文 决定 采用 PyTorch 作为 Auto-Net 2.0 的 深度 学 
习 库 。 出 于 这 个 选择 ， 也 会 用 Auto-PyTorch 来 指 代 Auto-Net 2.0。 
Auto-Net 2.0 的 搜索 空间 包含 用 于 模块 选择 的 超 参 〈 如 调度 程序 类 型 、 网 络 结构 等 ) 
和 每 个 特定 模块 自身 的 超 参 两 个 部 分 。 它 支持 不 同 的 深度 学 习 模块 ， 如 网 络 类 型 、 学 习 
率 规 划 器 、 优 化 器 和 正则 化 技术 ， 后 面 会 具体 介绍 。 另 外 ， 在 设计 Auto-Net 2.0 时 ， 考 
虑 到 它 的 易 扩 展 性 ， 用 户 可 以 将 自己 的 模块 添加 到 后 面 所 列 的 模块 中 。 
目前 ，Auto-Net 2.0 主要 提供 了 4 种 不 同 的 网 络 类 型 。 
a 多 层 感知 机 (MLP ) 。 这 是 扩展 了 丢弃 (dropout) Æ U9 的 传统 多 层 感 知 机 的 标 
准 实现 。 与 Auto-Net 1.0 类 似 ，MLP 的 每 一 层 都 进行 了 参数 化 ( 如 神经 元 个 数 
和 丢弃 概率 ) 。 

= 残 差 神 经 网 络 。 这 些 深 度 神 经 网 络 能 够 对 残 差 函数 四 进行 学 习 ， 所 不 同 的 是 本 
章 采 用 全 连接 层 来 替代 卷 积 层 。 与 ResNets 标准 相同 ， 该 网 络 结构 含有 MAH, 
每 个 组 按 顺 序 堆 登 W 个 残 差 块 。 虽 然 每 个 块 的 结构 是 固定 的 ， 但 是 组 的 数量 M. 
每 组 含有 的 块 数量 N 和 每 组 的 宽度 是 通过 超 参 来 决定 的 ， 如 表 7.2 所 示 。 

成 形 多 层 感 知 机 。 为 了 避免 每 一 个 网 络 层 都 有 其 自身 的 超 参 ( 这 种 表示 对 于 
搜索 而 言 效率 很 低 ) ， 在 成 形 多 层 感 知 机 中 ， 网 络 层 的 整体 形状 是 预先 确定 
的 ， 如 漏斗 形 、 长 漏斗 形 、 六 角形 、 砖 形 或 三 角形 。 本 文 主要 参考 网 址 https:/ 
mikkokotila.github.io/slate/#shapes 所 给 出 的 相应 形状 ， 伊 利 亚 。 洛 斯 基 洛 夫 之 前 
也 向 本 章 作 者 提出 采用 这 些 形状 进行 参数 化 四 。 

- 成 形 残 差 网 络 。 与 成 形 多 层 感 知 机 类 似 ， 残 差 网 络 中 的 网 络 层 整体 形状 也 是 预 
先 确定 的 ， 如 漏斗 形 、 长 漏斗 形 、 六 角形 、 砖 形 或 三 角形 。 

残 差 神经 网 络 和 成 形 残 差 网 络 的 网 络 类 型 也 可 以 使 用 Shake-Shake!!?! 和 ShakeDroplgl 
的 任 一 正则 化 方法 ， 而 MixUp 9! 可 以 用 于 所 有 网 络 。 

Auto-Net 2.0 目前 所 支持 的 优化 器 主要 是 Adam"! 和 动量 SGD。 除 此 之 外 ，Auto- 
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Net 2.0 还 提供 了 5 种 不 同 的 能 够 随 着 时 间 改 变 优化 器 学 习 率 的 调度 器 〈 也 就 是 一 个 基于 
训练 轮 数 的 函数 ) 。 
n 指数 型 。 每 一 轮 和 迭代 都 对 学 习 率 乘 以 一 个 常数 因子 。 
= 逐步 型 。 每 隔 一 定数 量 的 步骤 后 ， 都 通过 一 个 乘积 因子 来 对 学 习 率 进行 衰减 。 
- 循环 型 。 在 一 定 范围 内 修改 学 习 率 ， 即 在 增加 和 减少 之 间 进 行 交替 Un. 
= 采用 热 启动 的 余弦 退火 法 外。 该 学 习 率 调度 实现 了 多 个 阶段 的 收敛 。 首 先 采用 
余弦 衰减 纪 的 方式 将 学 习 率 冷却 到 0， 接 下 来 在 每 个 收敛 阶段 之 后 对 其 重新 进 
行 加 热 以 开启 下 一 个 收敛 阶段 ， 这 种 方法 通常 能 够 获得 一 个 更 佳 的 最 优 值 。 需 
要 注意 的 是 ， 在 加 热学 习 率 时 不 对 网 络 权重 做 任何 修改 ,这 样 就 能 够 热 启 动 下 
一 个 收敛 阶段 。 

= OnPlateau。 每 当 一 个 指标 停止 增长 时 ， 该 调度 器 8 就 会 对 学 习 率 进行 修改 。 
具体 而 言 ， 如 果 经 过 万 轮 运算 指标 没有 任何 提升 ， 它 就 会 将 当前 学 习 率 乘 以 因 
p» 

与 Auto-Net 1.0 类 似 ，Auto-Net 2.0 也 可 以 对 预 处 理 技术 进行 搜索 。 目 前 而 言 ， 
Auto-Net 2.0 支持 的 预 处 理 方法 有 Nyström, Ez 3: 4) 4) jr 5、 快速 独立 成 分 分 析 8. 
径 向 基 函 数 近 似 核 构造 方法 @ 及 有 截断 的 奇异 值 分 解 中。 在 实际 任务 中 ， 用 户 可 以 指 
定 待考 虑 的 预 处 理 技术 列表 ， 也 可 以 选择 不 同 的 平衡 和 标准 化 策略 。 需 要 注意 的 是 ， 对 
于 平衡 策略 而 言 ， 目 前 只 有 对 损失 值 进行 加 权 的 方法 是 可 用 的 ， 对 于 标准 化 策略 ，Auto- 
Net 2.0 可 以 支持 min-max 标准 化 和 常用 标准 化 。 与 Auto-Net 1.0 不 同 的 是 ，Auto-Net 2.0 
并 没有 在 最 后 构建 集成 ， 尽 管 该 功能 很 快 就 会 被 加 入 Auto-Net 2.0 中 。 另 外 ， 表 7.2 也 
给 出 了 Auto-Net 2.0 所 有 超 参 的 取 值 范围 和 默认 值 。 

考虑 到 这 个 高 度 条 件 化 空间 上 的 优化 器 效率 ，Auto-Net 2.0 采用 BOHB Wik", iz; 
方法 通过 结合 传统 贝 叶 斯 优化 和 基于 bandit 策略 的 超 带 方法 四， 大 幅度 提升 了 算法 的 运 
行 效 率 。 类 似 于 超 带 方法 ，BOHB 采用 了 连续 减 半 O 的 重复 运行 ， 进 而 能 够 将 大 部 分 
时 间 投 入 到 有 潜力 的 神经 网 络 ， 并 能 够 较 早 地 停止 训练 性 能 较 差 的 神经 网 络 。 就 像 在 贝 
叶 斯 优化 中 那样 ，BOHB 能 够 学 习 出 可 以 产生 好 结果 的 神经 网 络 。 具 体 而 言 ， 类 似 于 贝 
叶 斯 优化 方法 TPE”, BOHB 使 用 核 密度 估计 器 (KDE) 来 描述 神经 网 络 空间 (网 络 结 
构 和 超 参 设置 ) 中 的 高 性 能 区 域 ， 并 采用 该 KDE 对 探索 和 利用 进行 平衡 。 另 外 ，BOHB 


®© 基于 PyTorch 实现 。 
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还 具有 易 并 行 化 的 优势 ， 即 随 着 工作 机 数量 的 增加 ， 可 以 实现 近乎 线性 的 加 速 to。 

在 BOHB 中 ， 预 算 单位 可 以 被 设置 成 轮 数 (epoch) 或 (挂钟 ) 时 间 (以 min 为 单 
位 ，。 默 认 情 况 下 ， 采 用 的 是 运行 时 间 ， 不 过 用 户 可 以 自由 地 调整 不 同 的 预算 参数 。 与 
Auto-sklearn 类 似 ，Auto-Net 被 构建 成 Scikit-learn 的 一 个 插件 式 估计 器 ， 用 户 只 需 提供 
训练 集 和 性 能 度量 指标 〈 如 准确 度 ) 。 另 外 ， 用 户 也 可 以 指定 验证 集 和 测试 集 ， 验 证 集 
的 主要 作用 是 获得 训练 过 程 中 神经 网 络 的 性 能 度量 及 对 BOHB 的 KDE 模型 进行 训练 。 
算法 1 给 出 了 Auto-Net 2.0 的 具体 使 用 示例 。 


算法 1 Auto-Net 2.0 的 使 用 示例 
from autonet import AutoNetClassification 
cls = AutoNetClassification(min_budget=5, max_budget=20, max_ 
runtime=120) 
cls.fit(X train, Y train) 
predictions - cls.predict(X test) 


7.4 € W 


本 节 主 要 对 Auto-Net 的 性 能 进行 实验 评估 。 本 次 实验 分 别 实现 了 基于 CPU 运行 和 
基于 GPU 运行 的 Auto-Net 版 本 。 由 于 神经 网 络 使 用 了 大 量 的 矩阵 操作 ， 所 以 其 在 GPU 
上 的 运行 速度 会 明显 超过 其 在 CPU 上 的 运行 速度 。 具 体 而 言 ， 基 于 CPU 的 实验 主要 运 
行 在 一 个 计算 集群 上 ， 每 个 节点 都 含有 两 个 8 核 的 Intel Xeon E5-2650 v2 CPU， 运 行 频 
率 为 2.6 GHz， 共 享 内 存 为 64GB。 而 基于 GPU 的 实验 同样 运行 在 一 个 计算 集群 上 ， 每 
个 节点 含有 4 个 GeForce GTX TITAN X GPU。 


7.4.1 基线 评估 


本 节 的 第 一 个 实验 对 Auto-Net 1.0 的 不 同 实例 在 AutoML 挑战 赛 阶段 0 的 5 个 数据 
集 上 的 表现 进行 了 比较 。 首 先 ， 使 用 基于 CPU 的 版 本 和 基于 GPU 的 版 本 来 研究 在 不 同 
硬件 上 运行 神经 网 络 的 差异 。 其 次 , 允许 神经 网 络 和 来 自 Auto-sklearn 中 的 模型 进行 组 合 。 
最 后 ， 运 行 不 具有 神经 网 络 的 Auto-sklearn 作为 另 一 个 对 比试 验 。 在 每 个 数据 集 上 ， 对 
每 种 方法 执行 10 次 为 期 1 天 的 运行 ， 而 其 中 单个 配置 评估 〈 采 用 训练 集 上 的 5 折 交 叉 
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验证 来 进行 评估 ) 的 时 间 则 限制 为 100min。 对 于 每 次 运行 的 每 个 时 间 步 , 类 似 于 文献 [11] 
会 对 目前 已 评估 过 的 模型 进行 集成 ， 并 绘制 出 集成 随 着 时 间 而 变化 的 测试 误差 。 在 实际 
任务 中 ， 可 以 采用 一 个 单独 的 过 程 来 并 行 计算 这 些 集成 ， 也 可 以 在 优化 完成 之 后 来 计算 
EMN 

7.1 展示 了 其 中 两 个 数据 集 上 的 实验 结果 。 由 图 7.1 可 知 ， 基 于 GPU 的 Auto-Net 
版 本 始终 比 基 于 CPU 的 版 本 快 一 个 数量 级 。 另 外 ， 在 给 定 的 计算 预算 内 ， 基 于 CPU 的 
版 本 始终 表现 最 差 ， 而 基于 GPU 的 版 本 在 newsgroups 数据 集 上 表现 最 佳 (如 图 7.1 Ca) 
所 示 ) ， 在 其 中 3 个 数据 集 上 与 Auto-sklearn 性 能 持平 ， 在 其 中 一 个 数据 集 上 表现 较 差 。 
尽管 基于 CPU 的 Auto-Net 版 本 的 运行 速度 非常 慢 ， 但 是 在 3/5 的 实例 上 ， 基 于 CPU 的 
Auto-Net 与 Auto-sklearn 的 组 合 仍然 优 于 Auto-sklearn 的 性 能 ， 如 在 dorothea 数据 集 上 
就 可 以 观察 到 这 一 点 〈 如 图 7.1 (D 所 示 ) o 


1.0 ma 


0.9 | 


时 间 /s 时 间 /s 
(a) newsgroups 数 据 集 (b》dorothea 数 据 集 


7.1 4 个 方法 在 两 个 数据 集 ( 来 自 于 AutoML 挑战 赛 的 Tweakathon0 ) 上 的 实验 结果 


ER 需要 注意 的 是 ， 由 于 本 章 方法 只 对 训练 集 进行 访问 ， 所 以 误差 为 竞赛 验证 集 上 的 误差 而 非 测试 集 
上 的 误差 〈 因 为 在 测试 集 上 真实 标签 不 可 用 ) 。 为 了 展示 更 为 清晰 ， 图 中 绘制 出 了 每 个 方法 运行 10 次 
的 平均 误差 +1/4 标 准 差 。 


7.4.2 AutoML 竞赛 上 的 表现 


在 第 一 届 AutoML 挑战 赛 期 间 开 发 出 了 Auto-Net 1.0， 而 在 竞赛 的 最 后 两 个 阶段 对 
Auto-sklearn 和 基于 GPU 的 Auto-Net 进行 了 组 合 ， 并 在 相应 的 人 类 专家 任务 中 获得 了 
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胜利 。 由 于 Auto-sklearn 已 经 开发 了 较 长 时 间 ， 所 以 它 的 鲁 棒 性 明显 强 于 Auto-Net。 这 
也 是 为 何 Auto-sklearn 在 第 3 个 阶段 的 4/5 数据 集 上 和 第 4 个 阶段 的 3/5 数据 集 上 的 表 
现 最 好 ， 因 而 只 提交 了 Auto-sklearn 自身 的 结果 。 接 下 来 ， 重 点 讨论 用 于 Auto-Net 的 3 
个 数据 集 。 图 7.2 展示 了 AutoML 人 类 专家 任务 中 使 用 Auto-Net 的 3 个 数据 集 上 的 正式 
竞赛 结果 。 其 中 ，alexis 数据 集 是 竞赛 第 三 个 阶段 〈 即 “高 级 阶段 ”) 的 一 部 分 。 为 此 ， 
在 5 个 GPU 上 并 行 〈 使 用 共享 模式 下 的 SMAC) 运行 了 Auto-Net 18h。 提 交 的 结果 包 
括 针 对 39 个 模型 所 进行 的 自动 集成 构建 ， 并 且 明 显 优 于 所 有 的 人 类 专家 : AUC 分 值 达 
到 9096, 而 最 佳人 类 参赛 者 (Ideal Intel Analytics) 的 AUC 分 值 只 达到 8096. 据 我 们 所 知 ， 
这 是 自动 构建 的 神经 网 络 首 次 在 竞赛 数据 集 上 取得 胜利 。 至 于 yolanda 数据 集 和 tania 数 
据 集 ， 其 是 竞赛 第 四 个 阶段 〈 即 “专家 阶段 ”) 的 一 部 分 。 对 于 yolanda 数据 集 ， 在 8 
个 GPU 上 运行 了 Auto-Net 48h， 并 自动 构建 了 5 个 神经 网 络 的 集成 ， 最 终 取得 了 接近 
第 3 名 的 成 绩 。 对 于 tania 数据 集 ， 在 8 个 GPU 上 运行 Auto-Net 48h， 且 在 25 个 CPU 
上 运行 Auto-sklearn。 最 终 ， 自 动 集成 脚本 构建 了 一 个 由 8 个 单 层 神经 网 络 、2 个 双 层 神 
经 网 络 和 一 个 采用 SGD 训练 而 得 的 逻辑 斯 带 回 归 模 型 组 合 而 成 的 集成 。 该 集成 在 tania 
数据 集 上 取得 了 第 一 名 。 


1.0 1.0} 1.0 
其 他 其 他 其 他 
159 Auto-Net E Auto-Net E Auto-Net 
08 | 0.8 0.8 
Hm EE 0.6 0.6 
& & 
L3 L3 e 
o4— c 04 04 
Wm a a a a a o2 rid H | 021— 
[o 0.0. — -i- - oo — - - - - 
(a) alexis 数 据 集 (b) yolanda 数 据 集 (c). tania 数 据 集 


7.2 AutoML 人 类 专家 任务 中 使 用 Auto-Net 的 3 个 数据 集 上 的 正式 竞赛 得 分 
图: 需要 注意 的 是 ， 这 里 只 给 出 了 排名 前 10 的 结果 。 


另外 ， 对 于 tania 数据 集 ， 重 复 7.4.1 节 中 的 实验 。 由 图 7.3 可 知 ， 即 使 是 只 运行 在 
CPU 上 ，Auto-Net 在 该 数据 集 上 也 要 明显 优 于 Auto-sklearn， 而 基于 GPU 的 Auto-Net 
版 本 则 在 该 数据 集 上 表现 最 好 。 
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误差 


* 9 Auto-Net-GPU | 
0.4 a. a Auto-Net-CPU | LLL NA | | | 
A a Auto-Net+Auto-sklearn 
* * Auto-sklearn 
0.3 
10* 105 
时 间 /s 


7.3 Æ tania 数据 集 上 不 同方 法 随 着 时 间 的 性 能 变化 趋势 


E3 由 于 竞赛 验证 集 和 测试 集 的 真实 标签 无 法 获得 ， 所 以 这 里 给 出 训练 集 上 的 交叉 验证 性 能 。 同 样 为 
了 展示 得 更 为 清晰 ， 图 中 绘制 出 了 每 个 方法 运行 10 次 的 平均 误差 夺 l/4 标准 差 。 


7.4.3 Auto-Net 1.0 与 Auto-Net 2.0 的 对 比 


下 面 对 Auto-Net 1.0 和 Auto-Net 2.0 之 间 的 性 能 进行 比较 。 需 要 注意 的 是 ， 相 比 
Auto-Net 1.0，Auto-Net 2.0 具有 一 个 更 为 全 面 的 搜索 空间 。 因 此 ， 有 理由 预期 当 给 定 足 
够 的 时 间 时 ，Auto-Net 2.0 会 在 大 型 数据 集 上 有 着 更 好 的 表现 。 同 样 可 以 预计 ， 相 比 搜 
索 Auto-Net 1.0 的 较 小 空间 , 在 更 大 的 空间 上 进行 搜索 会 更 加 困难 .不 过 由 于 Auto-Net 2.0 
使 用 了 高 效 的 多 保 真 度 优化 器 BOHB， 能 够 较 早 地 终止 表现 较 差 的 神经 网 络 ， 因 此 它 仍 
有 可 能 获得 很 强 的 随时 性 能 。 另 外 ， 到 目前 为 止 ，Auto-Net 2.0 还 没有 实现 自动 集成 构 
建部 分 ， 以 及 由 于 它 的 较 大 假设 空间 和 缺乏 正则 化 组 件 ， Auto-Net 2.0 可 能 会 比 Auto- 
Net 1.0 更 容易 出 现 过 拟 合 。 

为 了 测试 不 同 规模 数据 集 上 的 预期 性 能 ， 本 章 采 用 了 一 个 中 等 规模 的 数据 集 
newsgroups (#14 13 000 个 训练 数据 点 ) 和 一 个 小 型 数据 集 dorothea (HHA 800 个 训练 
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数据 点 ) ， 实 验 结果 如 表 7.3 所 示 。 


R73 ”以 不 同 的 时 间 运 行 在 CPU 上 的 不 同 Auto-Net 版 本 的 误差 度量 


newsgroups dorothea 
Auto-Net 版 本 lin 
103s 10's 108s 10's 


Auto-Net 1.0 

Auto-sklearn + Auto-Net 1.0 

Auto-Net 2.0: 1 个 工作 机 

Auto-Net 2.0: 4 个 工作 机 

E3: 主要 版 本 有 Auto-Net 1.0、Auto-Net 1.0 与 Auto-sklearn 的 集成 、 具 有 1 个 工作 机 的 Auto-Net 2.0 
和 具有 4 个 工作 机 的 Auto-Net 2.0。 所 有 方法 的 结果 都 是 运行 10 次 的 均值 。 与 图 7.1 类 似 ， 由 于 本 章 
方法 只 对 训练 集 进行 访问 ， 所 以 误差 为 竞赛 验证 集 上 误差 而 非 测试 集 上 误差 〈 因 为 测试 集 上 的 真实 标 
签 不 可 用 ) 。 

由 表 7.3 可 知 ， 在 中 等 规模 数据 集 newsgroups 上 ，Auto-Net 2.0 的 性 能 明显 优 于 
Auto-Net 1.0 的 性 能 。 在 此 基础 上 ， 采 用 4 个 工作 机 的 Auto-Net 2.0 能 够 带 来 明显 的 速 
度 提升 ， 使 得 Auto-Net 2.0 的 性 能 表现 与 Auto-sklearn、Auto-Net 1.0 的 集成 不 相 上 下 。 
虽然 Auto-Net 2.0 的 搜索 空间 较 大 ， 但 是 它 的 随时 性 能 (使 用 多 保 真 度 方法 BOHB) 仍 
然 强 于 Auto-Net 1.0〈 使 用 黑 盒 优化 方法 SMAC) 。 而 在 小 型 数据 集 dorothea E, Auto- 
Net 2.0 在 早期 还 是 会 优 于 Auto-Net 1.0。 不 过 当 训 练 时 间 足 够 时 ，Auto-Net 1.0 的 性 能 
略微 优 于 Auto-Net 2.0 的 性 能 。 本 章 推测 ， 主 要 原因 在 于 Auto-Net 2.0 缺乏 集成 机 制 及 
搜索 空间 较 大 。 


7.5 总 结 


本 章 对 Auto-Net 进 行 了 介绍 , Auto-Net 提供 了 无 须 人 工 干 预 的 自动 调 优 的 神经 网 络 。 
尽管 神经 网 络 在 很 多 数据 集 上 都 表现 出 了 优越 性 ， 但 是 对 于 那些 具有 手动 定义 特征 的 数 
据 集 ， 它 们 的 性 能 并 不 总 是 最 好 的 。 不 过 基于 本 章 实验 可 以 发 现 ， 即 使 在 其 他 方法 表现 
很 好 的 情况 下 ， 通 过 将 Auto-Net 与 Auto-sklearn 进行 组 合 所 获得 的 性 能 通常 都 会 持平 或 
优 于 只 使 用 其 中 一 个 的 性 能 。 

最 后 ， 本 章 给 出 了 AutoML 挑战 赛 人 类 专家 任务 中 3 个 数据 集 上 的 实验 结果 ， 其 中 
Auto-Net 取得 了 一 个 第 三 名 和 两 个 第 一 名 。 尤 为 重要 的 是 ，Auto-sklearn 与 Auto-Net 的 
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组 合 可 以 让 用 户 充分 地 利用 这 两 个 系统 的 优势 ， 而 且 通 常 可 以 改进 单个 系统 的 性 能 。 另 
外 ， 新 Auto-Net 2.0 的 首次 实验 表明 ， 使 用 更 为 全 面 的 搜索 空间 及 采用 BOMB 作为 优化 
器 能 够 产生 更 具 潜 力 的 结果 。 

在 未 来 的 工作 中 ， 将 致力 于 拓展 Auto-Net 到 更 为 一 般 的 神经 网 络 架构 ， 如 卷 积 神经 
网 络 和 循环 神经 网 络 。 
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概述 : 数据 科学 日 益 成 为 主流 ， 对 更 易 用 、 更 灵活 和 更 具 弹 性 的 数据 科学 工具 的 需求 也 在 不 断 增 
长 。 为 了 满足 这 一 需求 ，AutoML 研究 者 已 经 开始 构建 能 够 自动 化 机 器 学 习 管 道 的 设计 和 优化 过 
程 的 系统 。 本 章 将 会 重点 介绍 一 个 基于 基因 编程 的 开源 AutoML 系统 一 一 TPOT v0.3， 其 能 够 对 
一 系列 的 特征 预 处 理 器 和 机 器 学 习 模型 进行 优化 ， 以 最 大 化 有 监督 分 类 任务 上 的 分 类 精度 。 为 了 
解 TPOT 的 性 能 ， 在 150 个 有 监督 分 类 任务 上 对 TPOT 进行 了 基准 测试 ， 结 果 表明 ， 在 21 个 任 
务 中 ，TPOT 明显 优 于 基本 的 机 器 学 习 分 析 ， 而 在 其 中 的 4 个 任务 中 ，TPOT 的 准确 性 有 着 一 定 
程度 的 降低 。 不 过 需要 注意 的 是 ， 所 有 这 些 任务 TPOT 都 不 需要 任何 领域 知识 和 人 工 输入 。 由 此 
可 知 ， 基 于 基因 编程 的 AutoML 系统 在 自动 机 器 学 习 领 域 极 具 洪 力 。 


8.1 引 


Ill 


机 器 学 习 通常 被 描述 成 : 让 计算 机 具备 学 习 的 能 力 而 无 须 对 计算 机 进行 明确 规划 的 
研究 领域 由 。 尽 管 该 定义 看 上 去 很 简单 ， 但 有 经 验 的 机 器 学 习 实践 者 都 了 解 ， 设 计 有 效 
的 机 器 学 习 管道 往往 是 一 项 十 分 元 长 且 乏 味 的 工作 ， 而 且 通常 需要 大 量 的 机 器 学 习 算 法 
经 验 、 问 题 领域 的 专家 知识 和 时 间 密 集 型 的 暴力 搜索 才能 完成 这 一 任务 01. REIS 
机 器 学 习 爱好 者 想 让 我 们 所 相信 的 相反 ， 机 器 学 习 仍 需要 十 分 明确 的 规划 。 

为 应 对 这 一 挑战 ， 近 年 来 从 业者 已 经 相继 开发 出 了 若干 种 自动 机 器 学 习 方 法 中。 在 
过 去 的 几 年 里 ， 本 章 作者 一 直 在 开发 一 种 基于 树 的 管道 优化 工具 TPOT〉， 该 工具 能 
够 在 没有 任何 人 类 干预 的 情况 下 , 对 一 个 给 定 的 问题 域 自动 设计 和 优化 机 器 学 习 管 道 09。 
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简 言 之 ，TPOT 采用 基因 编程 GP》 来 优化 机 器 学 习 管道 ， 而 基因 编程 中 则 是 一 个 常见 
的 能 够 自动 构建 计算 机 程序 的 进化 计算 技术 。 在 之 前 的 工作 吗 中 ， 本 章 作者 已 证 明 结 
合 了 帕 累 托 的 基因 编程 可 以 使 得 TPOT 自动 构建 高 精度 且 紧 密 的 管道 ， 其 性 能 上 能 够 持 
续 优 于 基本 的 机 器 学 习 分 析 。 本 章 将 基准 测试 扩展 到 150 个 有 监督 分 类 任务 ， 并 在 广泛 
的 应 用 领域 (如 遗传 分 析 、 图 像 分 类 等 ) 对 TPOT 进行 了 评估 。 

另外 ， 本 章 主 要 为 2016 年 发 表 于 ICML 自动 机 器 学 习 专题 讨论 会 上 介绍 TPOT 的 
论文 吧 的 扩展 版 本 ， 有 兴趣 的 读者 可 以 阅读 该 论文 。 


8275 法 


接 下 来 将 会 对 TPOT v0.3 进行 介绍 ， 主 要 包括 作为 基因 编程 《GP) 原 语 的 机 器 学 习 
算 子 、 构 建 基于 树 的 管道 《用 于 将 原 语 组 合成 一 个 工作 的 机 器 学 习 管道 》， 以 及 用 于 优 
化 这 些 基 于 树 的 管道 的 GP 算法 。 随 后 ， 会 介绍 本 章 中 用 来 评估 TPOT 最 新 版 本 的 数据 
集 。 另 外 ，TPOT 是 GitHub 上 的 一 个 开源 项 目 ， 底 层 Python 代码 的 访问 网 址 为 https:// 
github.com/rhiever/tpot. 


8.2.1 机 器 学 习 管道 算 子 


TPOT 的 核心 是 Python 机 器 学 习 包 Scikit-learn!? 的 一 个 封装 。 因 此 ，TPOT 中 
的 每 个 机 器 学 习 管 道 算 子 〈 即 GP 原 语 ) 都 对 应 一 个 机 器 学 习 算 法 ， 如 有 监督 分 类 模 
型 或 标准 特征 缩放 器 。 下 面 列 出 的 所 有 机 器 学 习 算 法 的 实现 都 基于 Scikit-learn (BRT 
XGBoost) ， 并 且 本 章 参考 了 Scikit-learn 文档 [17] 和 [9] 来 详细 介绍 TPOT 中 所 使 用 的 
机 器 学 习 算 法 。 
= 有 监督 分 类 算 子 : 决策 树 、 随 机 森林 、 极 度 梯度 提升 分 类 器 (来自 XGBoostBl ) 、 
逻辑 斯 蒂 回归 ， 以 及 KNN 分 类 器 。 分 类 算 子 对 分 类 器 的 预测 值 进 行 存储 ， 并 将 


其 作为 管道 分 类 的 新 特征 。 
= 特征 预 处 理 算 子 : 标准 缩放 器 、 鲁 棒 缩 放 器 、 最 小 一 最 大 缩放 器 、 最 大 绝对 值 
缩放 器 、 随 机 主 成 分 分 析 lI、 二 值 化 ， 以 及 多 项 式 特 征 。 预 处 理 算 子 会 以 某 种 


方式 修改 数据 集 ， 并 返回 修改 后 的 数据 集 。 
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= 特征 选择 算 子 : 方差 阅 值 、 天 最 佳 特 征 选择 、 分 位 数 选择 、 总 体 错 误 率 选择 ， 以 
及 递归 特征 淘汰 (RFE ) 。 特 征 选择 算 子 以 某 种 标准 对 数据 集中 的 特征 进行 删 减 ， 
并 返回 修改 后 的 数据 集 。 
此 外 ，TPOT 还 包含 了 一 个 可 以 对 不 同 数据 集 进行 组 合 的 算 子 〈 如 图 8.1 所 示 ) ， 
其 能 够 将 数据 集 的 多 个 修改 变 体 组 合成 单个 数据 集 。 需 要 注意 的 是 ，TPOT v0.3 A HK 
失 数据 填充 算 子 ， 因 此 不 支持 含有 缺失 值 的 数据 集 。 最 后 ， 本 章 提供 了 整数 型 和 浮 点 型 
终端 来 参数 化 各 种 算 子 ， 如 k 近 邻 分 类 器 中 的 邻居 数量 ko 


管道 生子 最 终 特征 集 上 
Se MES I 修改 特征 的 分 类 结果 
ee 
多 个 数据 集 的 副本 选择 K 个 waa 
可 以 进入 管道 分 析 最 佳 特征 n 


完整 数据 集 


通过 管道 算 子 
修改 数据 流 


图 8.1 TPOT 中 基于 树 的 管道 示例 
图 : 其 中 ， 每 个 圆 对 应 一 个 机 器 学 习 算 子 ， 箭 头 代表 数据 的 流向 。 


8.2.2 构建 基于 树 的 管道 


为 了 将 这 些 算 子 组 合成 一 个 机 器 学 习 管 道 ， 本 章 将 它们 视 为 基因 编程 的 原 语 ， 并 从 
中 构建 基因 编程 树 。 图 8.1 展示 了 一 个 基于 树 的 管道 示例 。 其 中 ， 首 先 将 数据 集 的 两 个 
副本 提供 给 管道 ， 并 依次 被 相应 的 算 子 进行 修改 ， 随 后 将 它们 合并 成 一 个 数据 集 ， 最 后 
用 于 逻辑 斯 蒂 回归 进行 分 类 。 除 了 每 个 管道 必须 拥有 一 个 分 类 器 作为 它 的 最 终 算 子 这 个 
限制 ， 在 TPOT 中 ， 可 以 构建 任意 形状 的 能 够 作用 于 数据 集 多 个 副本 的 机 器 学 习 管道 。 
由 此 可 知 ，GP 树 事实 上 提供 了 一 种 天 生灵 活 的 机 器 学 习 管道 表示 。 

为 了 运行 这 些 基 于 树 的 管道 ， 本 章 为 数据 集中 的 每 条 记录 存储 了 3 个 额外 的 变量 。 
其 中 ，“ 类 ”变量 表示 每 条 记录 的 真实 标签 ， 并 用 于 评估 每 条 管道 的 准确 度 。“ 猜 测 ” 
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变量 表示 管道 对 每 条 记录 的 最 新 猜测 结果 ， 即 管道 中 最 后 的 分 类 算 子 所 作出 的 预测 存储 
为 “猜测 ”。 最 后 的 “组 ”变量 表示 某 条 记录 是 被 用 作 内 部 训练 集 的 一 部 分 还 是 测试 集 
的 一 部 分 ， 进 而 可 以 使 得 基于 树 的 管道 只 在 训练 集 上 进行 训练 并 在 测试 集 上 进行 评估 。 
值得 注意 的 是 ， 提 供给 TPOT 的 数据 集 按照 3:1 的 比例 被 进一步 划分 为 内 部 分 层 的 训练 
集 和 测试 集 。 


8.2.3 优化 基于 树 的 管道 


为 了 自动 生成 和 优化 这 些 基 于 树 的 管道 ， 本 章 采 用 Python 包 DEAPT! 中 所 实现 的 
基因 编程 算法 山 。TPOT 中 的 GP 算法 遵循 标准 的 GP 过 程 。 起 初 ，GP 算法 会 随机 生成 
100 个 基于 树 的 管道 ， 并 评估 它们 在 数据 集 上 的 平衡 交叉 验证 精度 。 对 于 GP 算法 的 每 
一 代 ， 该 算法 都 会 根据 NSGAII 选择 方案 外 挑选 种 群 中 表现 最 好 的 前 20 个 管道 。 其 中 ， 
管道 的 选择 需要 同时 考虑 两 方面 ， 一 方面 是 最 大 化 数据 集 上 的 分 类 精度 ， 另 一 方面 是 最 
小 化 管道 中 的 算 子 数量 。 随 后 ， 前 20 被 选 管道 中 的 每 一 个 都 会 为 下 一 代 种 群 产 生 5 个 
EA GIER) ， 其 中 596 的 后 代 采 用 单 点 交叉 的 方式 与 另 一 个 后 代 进 行 杂 交 ， 剩 下 未 
受 影响 的 9096 后 代 会 通过 单 点 修改 、 插 入 或 缩小 的 变异 方式 (各 有 1/3 的 概率 ) 被 随机 
改变 。 每 一 代 ， 算 法 都 会 更 新 发 现 于 GP 运行 过 程 中 任意 点 的 非 支配 解 和 的 帕 累 托 前 沿 。 
该 算法 会 重复 评估 一 选择 一 交叉 一 变异 过 程 100 代 〈 在 该 过 程 中 ， 会 增加 和 调整 能 够 提 
高 分 类 精度 的 管道 算 子 ， 并 修剪 那些 会 降低 分 类 精度 的 算 子 ) ， 直 到 算法 从 帕 累 托 前 沿 
中 选择 出 了 最 高 精度 的 管道 ， 并 将 其 作为 来 自 运行 中 的 代表 性 “最 佳 ”管道 。 


8.2.4 基准 测试 数据 


本 章 从 各 种 数据 源 整理 了 150 个 有 监督 的 数据 集 @， 包 括 UCT 机 器 学 习 库 趾 、 大 型 
预存 的 基准 测试 库 8) 及 仿真 的 遗传 分 析 数 据 集 四 8。 这 些 基 准 数据 集 的 记录 条 数 从 60 到 
60 000 不 等 ， 少 量 数据 集 的 特征 能 够 达到 数 百 个 。 另 外 ， 这 些 数据 集会 同时 包含 有 监督 
的 二 值 分 类 和 多 类 别 分 类 问题 。 本 次 所 挑选 的 数据 集 涵盖 的 应 用 领域 较 广 ， 包 括 遗 传 分 
析 、 图 像 分 类 和 时 序 分 析 等 。 因 此 ， 该 基准 数据 集 ( 命 名 为 宾 州 机 器 学 习 基准 数据 集 ， 
PMLBW) 代表 了 一 套 能 够 用 于 评估 自动 机 器 学 习 系 统 的 全 面 测 试 数据 集 。 


CD 数据 集 网 址 为 https://github.com/EpistasisLab/penn-ml-benchmarks。 
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8.3 实验 结果 


为 了 评估 TPOT， 本 章 在 150 个 基准 数据 集 上 各 运行 了 30 个 TPOT 的 副本 ， 其 中 每 
个 副本 都 有 8h 的 时 间 来 完成 100 代 的 优化 〈 即 有 100X100=10 000 次 管道 评估 ) 。 在 
每 个 副本 中 ， 数 据 集 被 划分 为 分 层 的 训练 集 (75%) 和 测试 集 (25%) ， 并 为 每 次 划分 
和 后 续 的 TPOT 运行 采用 不 同 的 随机 数 生成 器 种 子 。 

为 了 提供 一 个 合理 的 参照 对 比 实验 ， 类 似 于 TPOT， 本 章 在 150 个 基准 数据 集 上 对 
具有 500 棵 树 的 随机 森林 的 30 个 副本 进行 了 评估 ， 主 要 用 来 表示 一 个 新 手 通常 会 采用 
的 基本 机 器 学 习 分 析 方 法 。 此 外 ， 还 运行 了 一 个 随机 生成 和 评估 同等 数量 (10 000) 管 
道 的 TPOT 版 本 的 30 个 副本 ， 用 来 表示 TPOT 管道 空间 中 的 随机 搜索 。 在 所 有 评估 中 ， 
本 章 会 采用 平衡 准确 度 n 来 测量 获得 的 管道 或 模型 的 精度 。 平 衡 准确 度 主要 用 于 纠正 
数据 集中 类 上 样本 数量 不 均衡 的 问题 ， 其 首先 计算 单个 类 的 精度 ， 随 后 对 单个 类 的 精度 
进行 平均 。 简 单 起 见 ， 在 后 文中 将 用 “准确 度 ” 来 指 代 “ 平 衡 准确 度 ”。 

如 图 8.2 所 示 ， 在 大 多 数 数据 集 上 ，TPOT 和 随机 森林 的 平均 性 能 较为 相似 。 具 体 
而 言 ， 由 TPOT 所 找到 的 管道 在 21 个 基准 数据 集 上 明显 优 于 随机 森林 的 结果 ， 在 4 个 
基准 数据 集 上 显著 劣 于 随机 森林 的 结果 ， 而 在 125 个 基准 数据 集 上 与 随机 森林 的 结果 不 
具有 统计 意义 上 的 显著 差异 〈 本 文采 用 威 尔 科 克 森 秩 和 检验 来 确定 统计 显著 性 ， 而 显著 
性 的 确定 方式 为 Bonferroni KIE p 1EB F 0.000 333。) 图 8.3 展示 了 25 个 具有 显著 
差异 的 基准 数据 集 上 的 准确 度 分布 ， 而 其 中 的 基准 数据 集 则 是 根据 两 个 实验 上 准确 度 的 
中 位 数 差 异 来 排序 的 。 

值得 注意 的 是 ，TPOT 在 基准 测试 上 的 大 部 分 改进 十 分 明显 ， 与 随机 森林 的 结果 相 
比 ， 若 干 个 数据 集 上 准确 度 中 位 数 的 提升 都 在 1096 ~ 60%。 与 之 相反 ， 在 TPOT 表现 
较 差 的 4 个 数据 集 上 ， 准 确 度 中 位 数 的 退化 只 在 2% — 5%。 在 一 些 实例 中 ，TPOT 的 提 
升 主要 来 自 它 找到 了 能 够 支持 模型 对 数据 进行 更 准确 分 类 的 特征 预 处 理 器 @。 举 例 而 言 ， 
TPOT 发 现 ， 在 建 模 “Hill_valley” 数 据 集 之 前 采用 随机 主 成 分 分 析 这 一 特征 预 处 理 器 ， 
可 以 使 得 随机 森林 在 分 类 数据 时 取得 近乎 完美 的 准确 度 。 在 其 他 实例 中 ，TPOT 的 提升 
主要 来 自 于 在 基准 数据 集 上 应 用 了 不 同 的 模型 。 如 TPOT 发 现 ， 一 个 具有 Xk=10 个 邻居 
的 k 近 邻 分 类 器 能 够 对 “parity5” 数 据 集 进行 分 类 ， 而 在 该 数据 集 上 ， 随 机 森林 所 取得 


© 完整 列表 见 https://gist.github.com/rhiever/578cc9c686ffd873f46bca29406ddeld. 
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8.2 在 150 个 基准 数据 集 上 ，TPOT 和 具有 500 棵 树 的 随机 森林 的 平衡 准确 度 中 位 数 的 散 点 图 
FS: 其 中 ， 单 个 数据 点 表示 单个 数据 集 上 的 精度 ， 对 角 线 为 同等 线 ( 即 两 个 算法 取得 了 相同 的 精度 〉。 
同等 线 以 上 的 点 表示 在 该 数据 集 上 ，TPOT 的 性 能 优 于 随机 森林 ; 而 同等 线 以 下 的 点 则 表示 在 该 数据 
集 上 ， 随 机 森林 的 性 能 优 于 TPOT。 


在 将 TPOT 与 使 用 随机 搜索 的 TPOT 版 本 (图 8.3 中 的 TPOT Random) 进行 比较 
时 发 现 ， 随 机 搜索 往往 能 够 找到 与 TPOT 性 能 相当 的 管道 ， 除 了 在 “dis” 基 准 数据 集 上 
TPOT 的 性 能 始终 优 于 随机 搜索 。 在 其 中 的 17 个 数据 集 上 ， 没 有 一 个 随机 搜索 能 够 在 
24h 之 内 完成 运行 ， 即 图 8.3 中 方 框 留 空 部 分 所 在 的 数据 集 。 观 察 发 现 ， 随 机 搜索 会 为 
基准 测试 数据 集 生成 一 个 不 必要 的 复杂 管道 ， 即 使 在 使 用 一 个 调 优 模型 的 简单 管道 就 足 
以 对 基准 数据 进行 分 类 时 仍 会 如 此 。 虽 然 部 分 时 候 随 机 搜索 在 准确 度 上 的 表现 与 TPOT 
一 样 良好 ， 但 执行 有 引导 的 管道 搜索 能 够 用 尽 可 能 少 的 管道 操作 获得 较 高 的 分 类 精度 ， 
因此 TPOT 在 降低 搜索 时 间 、 模 型 复杂 度 和 提高 模型 可 解释 性 方面 仍 具有 相当 大 的 优势 。 
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8.3 TPOT 和 随机 森林 性 能 有 显著 差异 的 25 个 数据 集 上 的 平衡 精度 分 布 的 箱 形 图 


E 其 中 ， 每 个 箱 形 图 都 表示 30 个 副本 ， 内 线 表示 中 位 数 ， 止 口 表 示 中 位 数 的 9596 置信 区 间 ， 箱 的 
末端 分 别 表示 25% 分 位 数 和 7596 分 位 数 ， 点 表示 异常 值 。 
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8.4 总 结 与 展望 


KAE 150 个 数据 集 上 对 基于 树 的 管道 优化 工具 (TPOT) v0.3 进行 了 基准 测试 ， 
发 现 TPOT 能 够 在 若干 数据 集 上 找到 优 于 基本 机 器 学 习 分 析 的 机 器 学 习 管道 。 特 别 值得 
注意 的 是 ，TPOT 在 进行 管道 探索 时 无 须 任何 的 领域 知识 和 人 为 输入 。 由 此 可 知 ，TPOT 
在 自动 机 器 学 习 CAutoML) 领域 具有 相当 大 的 潜力 ， 本 文 将 继续 完善 TPOT， 以 不 断 发 
现 能 够 与 人 类 相 媲美 的 机 器 学 习 管道 。 接 下 来 对 未 来 一 些 可 以 改进 的 方面 进行 讨论 。 

首先 ， 将 对 能 够 为 基于 GP 的 AutoML 系统 (如 TPOT) 提供 合理 初始 化 四 的 方法 
进行 探索 。 举 例 而 言 ， 可 以 使 用 元 学 习 技 术 更 智能 地 匹配 在 待 求解 的 特定 问题 上 工作 良 
好 的 管道 配置 外。 简 言 之 ， 元 学 习 通 过 利用 之 前 机 器 学 习 运 行 的 信息 来 预测 每 个 管道 配 
置 在 特定 数据 集 上 的 表现 。 为 了 将 数据 集 置 于 标准 范围 内 ， 元 学 习 算法 会 对 数据 集 的 元 
特征 进行 计算 ， 如 数据 集 规模 、 特 征 数量 和 特征 的 各 种 属性 。 随 后 ， 将 数据 集 元 特征 映 
射 到 相应 的 管道 配置 ， 这 些 配置 在 具有 相似 元 特征 的 数据 集 上 工作 良好 。 这 种 智能 的 元 
学 习 算 法 能 够 在 一 定 程度 上 改进 TPOT 的 合理 初始 化 过 程 。 

其 次 ， 会 尝试 着 对 机 器 学 习 管 道 的 理想 “形状 ”进行 特征 化 。 在 Auto-sklearn 中 ， 
文献 [5] 采用 了 由 一 个 数据 预 处 理 器 、 一 个 特征 预 处 理 器 和 一 个 模型 组 成 的 较 短 且 固定 
的 管道 结构 。 在 另 一 个 基于 GP 的 AutoML 系统 中 ,文献 [22] 允许 GP 算法 设计 任意 形 
状 的 管道 ， 并 发 现 具 有 多 个 预 处 理 器 和 模型 的 复杂 管道 对 于 信号 处 理 问题 十 分 有 用 。 因 
Jb, WSR As Be WLR SES APES. PVE AutoML 系统 设计 任意 形 
状 的 管道 可 能 是 至 关 重 要 的 。 

最 后 ， 基 因 编 程 优化 方法 通常 会 受 限于 需要 优化 较 大 的 解决 方案 种 群 ， 而 这 对 于 某 
些 优 化 问题 而 言 显 得 缓慢 且 浪 费 资源 。 实 际 上 ， 通 过 在 GP 种 群 中 创建 一 个 集成 ， 有 可 
能 将 GP 的 所 谓 劣势 转化 成 优势 。 博 万 等 四 使 用 一 个 标准 的 GP 算法 探索 了 这 种 种 群集 
成 方案 ， 并 证 明 该 方案 能 够 显著 提高 算法 的 性 能 。 自 然 地 ， 为 TPOT 的 机 器 学 习 管 道 种 
群 创建 集成 是 现 有 方案 的 一 个 可 以 尝试 的 扩展 。 

总 结 而 言 ， 本 章 实验 表明 ， 采 用 一 种 模型 未 知 的 机 器 学 习 方 法 ， 并 允许 机 器 自动 发 
现 那些 能 够 在 给 定 的 问题 域 上 表现 最 好 的 预 处 理 器 和 模型 的 组 合 序列 ， 可 以 带 来 较 多 的 
收益 。 换 而 言 之 ，AutoML 通过 自动 化 机 器 学 习 中 最 为 烦琐 但 又 非常 重要 的 部 分 ， 为 数 
据 科学 带 来 了 革命 性 的 变化 。 
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概述 : 自动 统计 系统 致力 于 对 数据 科学 进行 自动 化 统计 ， 以 在 最 小 的 人 为 干预 下 从 原始 数据 集中 
产生 预测 和 人 类 可 读 的 报告 。 所 生成 的 报告 除了 含有 基本 的 图 像 和 统计 数据 外 ， 还 应 含有 对 数据 
集 的 高 级 洞察 ， 这 些 洞察 主要 来 自 : @D 数 据 集 模型 的 自动 构建 ; @) 模 型 之 间 的 比较 ; OATH 
些 结果 转 成 自然 语言 描述 的 软件 组 件 。 本 章 主 要 对 这 样 的 自动 统计 系统 的 通用 结构 进行 介绍 ， 并 
对 部 分 设计 决策 和 技术 挑战 进行 讨论 。 
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机 器 学 习 和 数据 科学 是 紧密 相关 的 研究 领域 ， 它 们 都 致力 于 开发 数据 中 的 自动 学 习 
算法 。 与 此 同时 ， 这 些 算法 也 支撑 了 很 多 人 工 智能 的 新 进展 ， 而 这 些 进 展 对 工业 界 产生 
了 巨大 的 影响 ， 并 开启 了 人 工 智能 的 新 黄金 时 代 。 然 而 ， 目 前 机 器 学 习 、 数 据 科 学 和 人 
工 智能 的 很 多 方法 存在 一 系列 重要 但 相关 的 局 限 性 。 

首先 ， 很 多 使 用 到 的 方法 都 是 难以 解释 、 理 解 、 调 试 和 信任 的 复杂 的 黑 盒 方法 ， 而 
解释 性 的 缺乏 则 会 妨碍 机 器 学 习 系统 的 部 署 。 举 例 而 言 ， 考 虑 一 个 能 够 为 医疗 、 刑 事 司 
法 判决 和 自动 驾驶 做 出 预测 或 决策 的 不 具有 可 解释 性 的 黑 盒 系统 上 的 主要 法 律 、 技 术 和 
伦理 后 果 。 黑 盒 机 器 学 习 方 法 的 这 种 严重 限制 ， 促 使 众多 从 业 人 员 去 发 展 “ 可 解释 性 的 
人 工 智能 ”， 并 致力 于 提供 可 解释 的 、 可 信任 的 和 透明 性 的 机 器 学 习 系统 。 

其 次 ， 机 器 学 习 系统 的 开发 已 经 变 成 了 手工 业 。 其 中 ， 机 器 学 习 专家 通过 手动 设计 
的 方案 来 解决 问题 ， 而 这 些 方案 通常 反映 了 一 组 特别 的 人 工 决 策 ， 并 且 存 在 专家 自身 的 
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倾向 和 偏见 。 讽 刺 的 是 ， 机 器 学 习 ， 一 个 致力 于 构建 能 够 从 数据 中 自动 学 习 的 系统 ， 是 
如 此 地 依赖 人 类 专家 和 手动 调 优 的 模型 和 学 习 算 法 。 通 常 而 言 ， 在 可 能 的 模型 和 方法 上 
的 手动 搜索 所 得 到 的 是 任意 数量 评估 指标 上 的 次 优 解 决 方案 。 再 者 ， 数 据 科 学 及 机 器 学 
习 方案 的 需求 与 专家 的 供应 之 间 的 极 大 不 平衡 性 ， 可 能 会 导致 很 多 能 够 对 社会 产生 重大 
价值 的 应 用 错失 机 会 。 
自动 统计 的 主要 设想 是 对 数据 分 析 、 模 型 发 现 和 模型 解释 的 多 个 方面 进行 自动 化 。 
在 某 种 意义 上 ， 自 动 统计 的 目标 是 开发 一 种 针对 数据 科学 的 人 工 智能 ， 即 一 个 能 够 推理 
数据 的 模式 并 能 够 向 用 户 解释 这 些 模式 的 系统 。 在 理想 情况 下 ， 给 定 一 些 原始 数据 ， 自 
动 统计 系统 应 具备 如 下 能 力 : 
m 能 够 对 特征 选择 和 转换 过 程 进行 自动 化 ; 
- 能 够 对 真实 数据 的 混乱 性 进行 处 理 ， 如 缺失 值 、 异 常 值 、 变 量 的 不 同类 型 及 不 
同 编码 方式 等 ; 

m 能 够 在 大 的 模型 空间 中 进行 搜索 ， 以 找到 一 个 可 以 捕捉 数据 中 任何 可 靠 模 式 的 
好 模型 ; 

- 能 够 找到 一 个 同时 避免 过 拟 合 和 欠 拟 合 的 模型 ; 

"- 能 够 向 用 户 解释 发 现 的 模式 ， 最 好 是 通过 与 用 户 进行 对 话 的 方式 来 解释 数据 上 
所 发 现 的 模式 ; 

n 能 够 在 多 种 约束 条 件 (计算 时 间 、 内 存 、 数 据 量 及 其 他 相关 资源 ) 下 以 一 种 高 
效 且 健壮 的 方式 来 实现 以 上 功能 。 

虽然 上 面 所 提 到 的 能 力 实现 起 来 较为 困难 ， 但 到 目前 为 止 在 自动 统计 项 目 上 的 相关 
工作 已 经 在 上 述 多 个 方面 取得 进展 。 特 别 地 ， 能 够 从 数据 中 发 现 可 信和 模型 及 能 够 用 通俗 
易 懂 的 语言 解释 这 些 发 现 的 能 力 ， 是 自动 统计 项 目 最 为 显著 的 功能 之 一 吗 。 该 功能 几乎 
对 任何 依赖 于 从 数据 中 提取 知识 的 领域 或 工作 都 是 有 用 的 。 

与 大 多 数 专注 于 提高 模式 识别 问题 性 能 的 机 器 学 习 相 关 文 献 不 同 〈 通 常会 采用 如 核 
方法 、 随 机 森林 或 深度 学 习 之 类 的 技术 ) ， 自 动 统计 项 目 需要 构建 能 够 综合 可 解释 性 组 
件 的 模型 ， 以 及 需要 一 个 能 够 表示 给 定数 据 中 模型 结构 不 确定 性 的 原则 性 方法 。 此 外 ， 
它 还 需要 能 够 针对 大 数据 集 和 小 数据 集 给 出 合理 的 答案 。 
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9.2 自动 统计 项 目的 基本 结构 


自动 统计 项 目的 核心 思想 是 ， 通 过 在 基于 模型 的 机 器 学 习 框架 中 工作 ， 可 以 获得 针 
对 上 述 挑 战 的 良好 解决 方案 a。 在 基于 模型 的 机 器 学 习 中 ， 基 本 思想 是 概率 模型 可 以 
解释 数据 中 的 模式 ， 以 及 概率 框架 〈 或 贝 叶 斯 奥 卡 姆 剃刀 ) 能 够 用 于 发 现 可 以 避免 过 拟 
合 和 欠 拟 合 的 模型 趾 。 贝 叶 斯 方法 提供 了 一 种 平衡 模型 复杂 度 和 数据 复杂 度 的 良好 方法 ， 
并 且 概 率 模型 是 可 组 合 和 可 解释 的 。 再 者 ， 基 于 模型 的 哲学 主张 ， 像 数据 预 处 理 和 转换 
之 类 的 任务 都 是 模型 的 一 部 分 ， 并 且 在 理想 情况 下 都 应 该 被 同时 处 理 9。 通 常 而 言 ， 一 
个 自动 统计 项 目 会 包含 以 下 关键 成 分 。 

(1) 模型 的 开放 式 语言 ， 能 够 足够 刻画 现实 世界 的 现象 ， 以 及 支持 应 用 人 类 统计 
学 家 和 数据 科学 家 所 使 用 的 技术 。 

(2) 搜索 程序 ， 用 以 有 效 地 探索 模型 语言 。 

(3) 评估 模型 和 权衡 复杂 度 的 原则 性 方法 ， 能 够 对 数据 和 资源 使 用 进行 适 配 。 

(4) 自动 解释 模型 的 程序 ， 以 一 种 对 非 专 业 人 士 而 言 既 准确 又 易 懂 的 方式 使 模型 
的 假设 变 得 清晰 、 明 确 。 

图 9.1 展示 了 一 个 如 何 用 这 些 组 件 生成 一 个 可 撰写 报告 的 自动 统计 项 目 基础 版 本 的 
高 级 概览 。 


> my 报告 ] 


F3. 该 流程 图 主要 概述 了 可 撰写 报告 的 自动 统计 系统 的 操作 流程 。 该 系统 首先 会 自动 构建 针对 该 数据 
的 模型 (来自 开放 式 模型 语言 )》， 随 后 在 此 数据 上 进行 评估 。 其 中 ， 评 估 过 程 会 对 不 同 模型 进行 比较 ， 
随后 获得 最 佳 模 型 并 用 最 佳 模 型 来 生成 报告 。 EKE, 每 个 模型 都 可 以 用 来 根据 数据 产生 推断 或 预测 ， 
以 及 模型 的 构建 过 程 可 以 转换 成 人 类 可 读 的 描述 说 明 。 部 分 模型 可 以 用 来 生成 模型 批评 ， 并 报告 模型 
假设 与 数据 不 匹配 的 地 方 。 


下 
数据 


9.1 简单 的 流程 图 
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如 同 本 章 稍 后 将 要 讨论 的 ， 可 以 构建 一 个 自动 统计 系统 ， 该 系统 将 上 述 所 提 到 的 成 
分 (4) 蔡 换 成 能 够 产生 其 他 所 需 输 出 的 程序 ， 如 原始 预测 或 决策 。 此 时 ， 可 以 适当 地 
修改 语言 、 搜 索 和 评估 组 件 ， 以 更 好 地 适 配 所 选 目标 。 

早期 的 重要 工作 包括 统计 专家 系统 O 和 方程 式 学 习 21, HLA BEAK IR 
用 微生物 学 实验 平台 将 机 器 学 习 和 科学 发 现 集成 到 一 个 闭环 中 ， 以 对 新 实验 的 设计 和 运 
行进 行 自动 化 。Auto-WEKAI7' 33 和 Auto-sklearn!®) 是 对 学 习 分 类 器 进行 自动 化 的 项 目 ， 
其 中 使 用 了 大 量 的 贝 叶 斯 优化 技术 。 近 期 ， 将 机 器 学 习 方 法 应 用 到 数据 的 努力 取得 了 一 
些 进展 ， 并 最 终 有 可 能 产生 数据 科学 上 实用 的 人 工 智 能 系统 。 


9.3 ”应 用 于 时 序数 据 的 自动 统计 


自动 统计 系统 可 以 为 不 同 的 目标 而 定义 ， 且 可 以 基于 不 同 的 底层 模型 族 。 本 节 首 先 
会 描述 一 个 这 样 的 系统 ， 随 后 对 更 为 广泛 的 分 类 法 进行 讨论 ， 并 给 出 常见 的 设计 元 素 和 
一 般 的 自动 统计 系统 结构 。 

在 文献 [18] 中 ， 罗 伊 德 等 提出 了 一 个 针对 一 维 回归 任务 的 早期 自动 统计 系统 ， 全 称 
为 自动 贝 叶 斯 协 方差 发 现 〈 简 写 为 ABCD ) 。 该 系统 使 用 一 种 基于 核 函 数 上 组 合 语法 的 
高 斯 过 程 模型 的 开放 式 语言 。 其 中 ,高 斯 过 程 定 义 了 函数 的 分 布 ， 而 高 斯 过 程 的 参数 CD 
均值 和 核 函 数 ) 决定 了 函数 的 属性 四。 可 供 选择 的 核 函 数 有 很 多 ， 不 同 的 核 函 数 会 使 得 
函数 的 分 布 具有 特定 的 属性 。 举 例 而 言 ， 函 数 的 分 布 可 以 是 线性 的 、 多 项 式 的 、 周 期 的 
或 者 是 无 关 噪声 的 。 该 系统 的 示意 图 如 图 9.2 所 示 。 


9.3.1 核 函数 上 的 语法 


如 前 所 述 ， 高 斯 过 程 核 函 数 上 的 语法 使 得 表示 函数 的 有 价值 属性 成 为 可 能 ， 并 且 给 
出 了 一 种 构建 这 些 函 数 上 分 布 的 系统 性 方法 。 该 语法 是 组 成 性 的 : 它 由 一 系列 的 固定 基 
核 函数 和 核算 子 所 组 成 ， 而 核算 子 能 够 将 已 有 核 函 数组 合成 新 核 函 数 。 除 此 之 外 ， 该 语 
法 被 精心 选择 为 可 解释 性 的 : 语法 中 的 每 个 表达 式 都 定义 了 一 个 可 以 被 简单 但 具有 描述 
性 的 人 类 语言 来 阐述 的 核 。 
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9.2 ”用 于 时 序数 据 的 自动 统计 系统 流程 图 


ES: (a) 该 系统 的 时 序 性 输入 数据 : (b) 系统 在 模型 语法 上 进行 搜索 以 找到 数据 的 良好 解释 ， 并 采 
用 贝 叶 斯 推理 对 模型 进行 评分 ，〈c) 将 所 发 现 的 模型 组 件 翻译 成 英语 短语 ; 〈d) 最 终结 果 为 一 个 包 
含 文本 、 图 像 和 表格 的 报告 ， 用 以 详细 描述 数据 上 的 发 现 和 推论 ， 同 时 会 包含 模型 检查 和 模型 批评 部 
分 B201。 


语法 中 的 基 核 函数 有 : 常数 型 ，C; 线性 ，LIN ;平方 指数 型 ，SE ; 周期 型 ， 
PER ， 白 噪声 型 ，WN 。 
核 运算 子 有 : 加 法 ，+; RE, x; RAF, CP. 
这 些 算 子 的 具体 定义 如 下 
(Atk )(G¥) =k (6%) th (xx) 
(4, x&)(xXx)-&(xx)xk(xx) 
CP(k, k )(x.X)- (x. x )e(x)e(Y)* (x. x)(1-o(x))(1-o(x)) 
其 中 ， eG) 2 (rem sim /和 s 为 改变 点 的 参数 。 可 以 采用 这 些 


算 子 来 任意 组 合 基 核 函 数 ， 以 生成 新 的 核 函数 。 

该 语法 所 定义 的 核 上 无 限 空间 支持 自动 搜索 、 评 估 和 描述 大 量 有 趣 的 函数 分 布 。 
这 种 类 型 的 语法 首次 在 解决 矩阵 分 解 问题 am 中 被 描述 ， 随 后 在 针对 高 斯 过 程 模型 的 文 
献 [5，18] 中 被 进一步 优化 。 
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9.3.2 ”搜索 和 评估 过 程 


ABCD 在 模型 空间 (由 语法 所 定义 ) LAT REBAR, FRA TIER 

各 个 模型 的 核 参 数 。 随 后 ， 采 用 贝 叶 斯 信息 准则 四 来 评估 参数 优化 后 的 模型 : 
BIC(M)=-2 log p(D|M) +|M|logN (9.1) 

其 中 ，M 为 优化 后 的 模型 ，p(D| M) 为 模型 对 潜在 高 斯 过 程 函 数 积分 的 边际 似 然 ，|MM| 
为 模型 M 中 核 参数 的 数量 ， NN 为 数据 集 大 小 。 而 贝 叶 斯 信息 准则 会 对 模型 的 复杂 度 进行 
权衡 ， 并 对 数据 进行 拟 合 ， 以 及 对 完整 的 边际 似 然 〈 融 合 了 潜在 函数 和 超 参 ) 进行 近似 。 

每 轮 中 的 最 佳 得 分 模型 都 会 被 用 来 构建 新 的 模型 ， 主 要 方法 有 : Q@ 采 用 语法 中 的 生 
成 规则 对 核 进行 扩展 ， 如 引入 求 和 、 乘 积 或 者 改变 点 等 ，@ 对 基 核 函数 进行 蔡 换 以 改变 
核 函 数 。 随 后 ， 在 下 一 轮 对 新 的 核 函 数 集合 进行 评估 。 需 要 注意 的 是 ， 基 于 上 面 的 规则 ， 
同一 个 核 表 达 式 有 可 能 会 被 选择 多 次 ， 但 是 一 个 良好 的 系统 会 对 记录 进行 保留 ， 并 且 对 
每 个 核 表 达 式 只 评估 一 次 。 当 所 有 新 提出 模型 的 得 分 小 于 之 前 轮 中 的 最 佳 模型 或 超出 预 
定义 的 搜索 深度 时 ， 搜 索 和 评估 过 程 会 停止。 

贪 禁 搜索 过 程 并 不 保证 能 为 任意 给 定数 据 集 找到 语法 中 的 最 佳 模型 ， 因 为 一 个 更 好 
的 模型 有 可 能 隐藏 在 还 没有 被 展开 的 子 树 中 。 事 实 上 ， 只 要 在 合理 的 时 间 内 找到 一 个 具 
有 可 解释 性 的 好 模型 即 可 ， 通 常 无 须 找到 全 局 最 优 模型 。 另 外 ， 还 有 一 些 其 他 的 模型 搜 
索 和 评估 方法 。 举 例 而 言 ， 马 尔 科 姆 等 四 提出 了 一 种 基于 贝 叶 斯 优化 的 核 搜索 过 程 ， 
简 效 等 上 9 实现 了 一 种 基于 粒子 滤波 和 哈密 顿 蒙特 卡 洛 的 核 搜 索 方 法 。 


9.3.3 生成 自然 语言 性 的 描述 


当 搜索 过 程 终止 时 ，ABCD 会 产生 相应 数据 集 上 的 核 表达 式 列表 及 它们 各 自 的 得 分 。 
随后 ， 采 用 具有 最 佳 得 分 的 表达 式 来 生成 自然 语言 描述 。 为 了 将 核 转 变 成 自然 语言 描述 ， 
首先 采用 下 面 过 程 将 核 转变 成 规范 形式 。 

CD 将 嵌 套 的 求 和 及 乘积 展开 成 乘积 的 和 的 形式 。 
(2) 将 若干 核 的 乘积 简化 成 具有 修正 参数 的 基 核 ， 如 SExSE SE" ， 针 对 任意 k 
的 Cx k 2 K 和 针对 任意 ke{C,SE, WN, PER} ff) WN x k 9 WN’. 
应 用 这 些 规则 后 , 核 表达 式 变 成 了 乘积 项 的 和 , 而 每 个 乘积 项 都 具有 以 下 规范 形式 ; 
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kx JLIN® « [To (9.2) 


, 0(x,x)=o(x)o(2’) 为 两 个 逻辑 斯 蒂 函 数 的 乘积 ，k 的 形式 为 WN, C 
SE Seen 种 。 另 外 ， 符 号 [JO 才 示 核 函 数 的 积 ， 而 而 每 个 核 


函数 都 有 其 单独 的 参数 。 

在 规范 形式 中 ， 核 为 乘积 的 和 。 首 先 对 和 中 乘积 项 的 数量 进行 描述 : “结构 搜索 算 
法 识别 出 了 数据 中 的 W 个 附加 组 件 。” 紧 接着 ， 采 用 以 下 算法 对 每 个 附加 组 件 〈 即 和 中 
的 每 个 乘积 ) 进行 描述 。 

CD 选择 乘积 中 的 一 个 核 作为 名 词 描述 符 。 在 文献 [18] 中 ， 罗 伊 德 等 提出 了 一 种 
启发 式 的 挑选 方法 ， 该 方法 基于 以 下 优先 级 : PER >{C,SE, WN}>[]LINY >] p”, X 

J j 


中 PER 的 优先 级 最 高 。 
(2) 将 所 选 核 类 型 转换 为 字符 串 : 
WN “ERRE” SE “平滑 函数 ” 
PER “周期 函数 ” LIN “线性 函数 ” 
C “常数 ” His “多 项 式 ” 
(3) ————€ 得 表 达 式 ， 而 后 修饰 
语 主要 基于 以 下 对 应 内 容 来 进行 转换 : 
SE “相应 的 形状 变 得 平滑 ” 


PER “基于 周期 函数 来 调整 ” 
LIN “使 用 线性 变 振幅 ” 
ITuN^ “使 用 多 项 式 变 振幅 ” 


Tle? “应 用 变 点 算 子 操作 ” 


(4) 可 以 对 描述 做 进一步 的 改进 和 补充 ， 如 增加 对 核 参 数 的 洞察 或 基于 数据 计算 
出 的 额外 信息 。 文 献 [18] 给 出 了 一 些 改进 的 介绍 。 
在 文献 [18-19] 中 有 更 多 的 将 核 表 达 式 转换 成 自然 语言 的 详细 内 容 。 从 生成 报告 中 
所 提取 的 示例 如 图 9.3 所 示 。 
该 组 件 近似 于 一 个 周期 为 10.8 年 的 周期 性 分 布 。 不 同 周期 内 ， 该 函数 形状 变化 较为 


第 9 章 自动 统计 177 


平滑 ， 具 有 变化 的 总 长 约 为 36.9 年 。 而 且 在 每 个 周期 内 ， 该 函数 形状 变化 十 分 平滑 ， 类 
似 于 正弦 曲线 。 该 组 件 适 用 于 1643 年 止 以 及 1716 年 起 。 

另外 ， 该 组 件 能 够 解释 71.596 的 残 差 ， 将 可 解释 的 总 方差 从 72.8% 上 升 到 92.396. 
并 且 ， 随 着 该 组 件 的 加 入 ， 将 交叉 验证 平均 绝对 误差 从 0.18 降 到 0.15， 减 少 了 16.8296. 


组 件 4 的 后 验 1362. 加 到 组 件 4 的 所 有 组 件 之 和 


13615 


| A | Ili | 
“Pia MIN wh, gale n ial 


A 13605. ay 


-08 1360 
1650 1700 1750 1800 1850 — 1900 1950 — 2000 1650 1700 1750 1800 1850 1900 1950 — 2000 


9.3 一 个 用 以 描述 由 ABCD 所 发 现 的 模型 组 件 的 自动 生成 报告 
ES: 该 部 分 报告 分 离 和 描述 了 大 约 11 年 的 太阳 黑子 周期 ， 并 指出 了 它 在 16 世纪 的 消失 ， 这 一 时 期 称 
为 蒙 德 极 小 期 (该 图 摘自 文献 [181) 。 


9.3.4 与 人 类 比较 


一 个 值得 探究 的 问题 是 ， 基 于 自动 统计 系统 (如 ABCD 算法 ) 所 做 出 的 预测 在 多 大 
程度 上 类 似 于 人 类 所 做 出 的 预测 ， 以 及 如 何 与 其 他 基于 高 斯 过 程 的 方法 所 作出 的 预测 进 
行 比较 。 为 回答 该 问题 ， 舒 尔 茨 等 中 向 参与 者 提出 任务 ， 即 从 给 定 的 数据 集中 进行 推断 ， 
并 从 给 定 的 集合 中 选择 首选 的 推断 结果 。 实 际 结果 从 两 个 角度 都 有 力 证 明了 组 合 型 核 搜 
索 的 效果 : 第 一 ， 相 比 于 由 谱 核 函数 6 所 作出 的 推测 及 由 简单 的 径 向 基 函 数 核 所 作出 
的 推测 ， 参 与 者 更 倾向 于 选择 由 ABCD 算法 所 作出 的 推测 ， 第 二 ， 当 人 类 参与 者 被 要 求 
由 自己 来 推测 数据 时 ， 他 们 的 预测 与 由 ABCD 组 合 型 搜索 过 程 所 给 出 的 预测 最 为 相似 。 

自动 统计 系统 的 设计 目标 之 一 是 具备 以 人 类 可 理解 的 方式 来 解释 其 相应 发 现 的 能 
力 。 前 面 所 描述 的 自动 统计 系统 会 将 其 自身 限制 在 那些 能 够 用 简单 的 人 类 语言 术语 所 解 
释 的 模型 空间 中 ， 即 使 这 在 一 定 程度 上 有 可 能 会 牺牲 预测 的 准确 性 。 一 般 而 言 ， 衡 量 机 
器 学 习 系 统 的 可 解释 性 并 不 简单 ， 多 西 - 维 莱 斯 和 金 姆 在 文献 [4] 中 提出 了 一 个 可 能 的 
框架 。 需 要 指出 的 是 ， 并 非 所 有 的 机 器 学 习 系 统 都 需要 这 样 的 功能 〈 即 可 解释 性 ) 。 举 
例 而 言 ， 当 系统 的 结果 对 社会 的 影响 很 小 时 ， 尤 其 是 社会 规范 和 互动 方面 ， 直 接 优化 性 
能 或 准确 度 是 可 以 接受 的 ， 如 为 自动 邮件 分 拣 识 别 邮政 编码 。 
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9.4 其 他 自动 统计 系统 


生成 人 类 可 读 报告 的 能 力 可 能 是 自动 统计 系统 的 显著 特征 之 一 。 但 正如 前 面 所 提 到 
的 ， 具 备 这 种 属性 的 软件 也 可 服务 于 其 他 目的 。 例 如 ， 用 户 可 能 感 兴趣 于 数据 的 原始 预 
测 (有 或 者 没有 解释 ) ， 也 有 可 能 想 要 系统 直接 代表 他 们 做 出 数据 驱动 的 决策 。 

除 此 之 外 ， 也 可 以 为 不 同 于 高 斯 过 程 或 语法 的 模型 族 建立 自动 统计 系统 。 例 如 ， 本 
章 作 者 构建 了 用 于 回归 5 由 、 分 类 2 引 、 单 变量 数据 和 多 变量 数据 的 自动 统计 系统 ， 
基于 不 同 模型 类 的 系统 及 具备 和 不 具备 智能 资源 控制 的 系统 。 本 节 将 对 众多 自动 统计 系 
统 所 共享 的 一 些 设计 元 素 进行 讨论 。 


9.4.1 核心 组 件 


自动 统计 系统 的 核心 任务 之 一 是 对 模型 进行 选择 、 评 估 和 比较 。 这 些 任务 可 以 并 发 
执行 ， 但 是 彼此 之 间 存 在 相互 依赖 关系 。 举 例 而 言 ， 对 一 组 模型 的 评估 可 能 会 影响 下 一 
组 模型 的 选择 。 

一 般 而 言 ， 系 统 中 的 选择 策略 组 件 主要 负责 选择 待 评估 的 模型 : 它 可 以 从 固定 或 开 
放 的 模型 族 中 进行 选择 , 也 可 以 基于 之 前 选择 模型 的 评估 和 比较 来 生成 模型 或 改进 模型 。 
部 分 时 候 ， 数 据 集中 的 变量 类 型 〈 可 能 是 从 数据 中 推断 的 ， 也 可 能 是 由 用 户 标记 的 ) 会 
影响 选择 策略 可 能 挑选 的 模型 。 例 如 ， 任 务 可 能 是 区 分 连续 数据 和 离散 数据 ， 并 对 类 别 
型 数据 和 顺序 型 数据 使 用 不 同 的 处 理 方法 。 

模型 评估 任务 首先 在 部 分 用 户 提供 的 数据 集 上 对 给 定 的 模型 进行 训练 ， 随 后 在 留存 
数据 上 对 模型 进行 测试 以 生成 相应 的 模型 得 分 。 而 有 些 模型 无 须 单独 的 训练 过 程 ， 可 以 
直接 为 整个 数据 集 生成 一 个 对 数 似 然 值 。 另 外 ， 对 于 并 行 化 而 言 ， 模 型 评估 可 能 是 最 为 
重要 的 任务 之 一 : 在 任意 给 定时 间 ， 可 以 在 多 个 CPU 甚至 是 多 台 计算 机 上 同时 评估 多 
个 选 定 的 模型 。 

报告 管理 组 件 是 决定 最 终 报 告 将 会 包含 哪些 结果 的 软件 部 分 。 举 例 而 言 ， 它 可 能 会 
包含 对 最 佳 拟 合 模型 进行 描述 的 部 分 ， 并 同时 伴随 相应 的 推断 、 图 形 或 数据 表 。 基 于 评 
估 结 果 ， 报 告 管理 组 件 可 能 会 选择 包含 附加 材料 ， 如 数据 证 伪 /模型 批评 部 分 、 推 荐 或 
摘要 等 。 需 要 注意 的 是 ， 在 部 分 系统 中 ， 最 终 交 付 的 可 能 是 其 他 内 容 而 非 报告 ， 如 原始 
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预测 、 参 数 设置 或 模型 源 代码 等 。 

在 交互 式 系统 中 ， 数 据 加 载 阶段 提供 了 上 传 数据 集 的 即时 性 摘要 ， 并 允许 用 户 修正 
任意 的 数据 格式 上 的 假设 。 其 中 ， 用 户 可 以 创建 类 型 注释 、 移 除数 据 集中 的 某 些 行 、 选 
择 输出 变量 《如 用 于 分 类 ) 及 指定 待 运行 的 分 析 。 


9.4.2 设计 挑战 


1. 用 户 交 互 


虽然 自动 统计 系统 致力 于 自动 化 数据 处 理 的 各 个 方面 (从 低级 别 的 任务 ， 如 格式 化 
和 清理 等 ， 到 高 级 别 的 任务 ， 如 模型 构建 、 评 估 和 批评 等 ) ， 但 是 支持 用 户 能 够 与 系统 
进行 交互 及 影响 系统 所 做 出 的 选择 也 是 非常 有 用 的 。 例 如 ， 用 户 可 能 想 要 指定 数据 上 他 
们 所 感 兴趣 的 某 些 部 分 或 某 些 方面 ， 以 及 指定 哪些 部 分 可 以 被 忽略 。 另 外 ， 一 些 用 户 可 
能 想 要 选择 自动 统计 系统 在 模型 构建 或 评估 阶段 将 要 考虑 的 模型 族 。 最 后 ， 系 统 自身 可 
能 希望 与 用 户 进行 对 话 ， 以 探究 或 解释 它 在 数据 中 的 发 现 。 需 要 指出 的 是 ， 这 种 交互 能 
力 需 要 底层 系统 的 支持 。 


2. 缺失 和 混乱 数据 


现实 世界 中 的 数据 集 普遍 存在 的 问题 是 条 目 缺 失 /损坏 、 单 元 /格式 不 一 致 或 者 其 
他 类 型 的 缺陷 ， 这 些 类 型 的 缺陷 可 能 需要 对 数据 进行 预 处 理 操 作 。 虽 然 很 多 决策 可 以 自 
动 做 出 ， 但 有 些 决策 可 能 会 受益 于 与 用 户 的 交互 。 事 实 上 ， 好 的 模型 可 以 直接 处 理 缺 
失 数据 ， 只 要 在 数据 加 载 阶段 准确 地 检测 出 缺失 数据 ， 相 应 的 处 理 过 程 就 能 够 较为 顺 
利 。 但 是 ， 有 些 数据 模型 本 身 并 不 具备 处 理 缺 失 数 据 的 能 力 。 此 时 ， 对 缺失 数据 进行 填 
充 ， 并 将 填充 后 的 数据 集 版 本 输入 这 些 模型 中 可 能 是 非常 有 用 的 。 值 得 注意 的 是 ， 填 充 
任务 自身 也 是 由 一 个 根据 数据 所 训练 的 模型 来 完成 的 。 缺 失 数据 填充 的 技术 有 很 多 ， 如 
MissForest?!!, MissPaLasso"?, mice, KNNimputeP!! 和 贝 叶 斯 方法 下 71, 


3. 资源 分 配 


自动 统计 系统 另外 一 个 需要 着 重 考虑 的 方面 是 资源 的 使 用 情况 。 例 如 ， 用 户 可 能 只 
有 有 限 数量 的 CPU 内 核 可 以 用 ， 又 可 能 需要 在 一 个 固定 的 时 间 限 制 内 获得 尽 可 能 好 的 
报告 《如 在 给 定 的 截止 时 间 之 前 ) 。 为 了 做 出 较 好 的 模型 选择 和 评估 选择 ， 一 个 智能 的 
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自动 统计 系统 应 当 考 虑 这 种 资源 约束 。 毋 庸 置疑 ， 这 种 能 力 将 会 影响 系统 的 整体 可 用 性 。 

即使 在 没有 直接 给 出 计算 时 间 、CPU 内 核 或 内 存 使 用 的 约束 时 ， 智 能 系统 也 会 受益 
于 将 资源 更 多 地 分 配给 那些 对 于 最 终 交 付 而 言 评估 效果 更 具 前 景 的 模型 。 实 际 上 ， 那 些 
支持 渐进 式 评估 形式 的 模型 可 以 实现 该 功能 , 如 增 量 式 训练 ( 即 逐 步 增 大 数据 集 的 子 集 ) 。 
为 了 实现 该 功能 ， 本 章 所 设计 的 一 个 系统 采用 了 一 种 冻 一 融 贝 叶 斯 优化 方法 99 的 变 体 。 


95 总 结 


目前 ， 我 们 的 社会 已 经 进入 了 一 种 数据 非常 丰富 的 时 代 。 想 要 充分 利用 这 种 增长 性 
资源 的 价值 ， 需 要 对 数据 进行 深入 的 分 析 和 探索 。 不 幸 的 是 ， 目 前 的 数据 增长 速度 超出 
了 我 们 的 分 析 能 力 ， 对 数据 的 分 析 仍 在 极 大 程度 上 依赖 于 人 类 专家 。 但 幸运 的 是 ， 机 器 
学 习 和 数据 分 析 的 很 多 方面 都 可 以 被 自动 化 ， 而 追求 这 个 目标 的 一 个 指导 性 原则 就 是 将 
机 器 学 习 应 用 于 它们 自身 。 

自动 统计 项 目 旨 在 通过 处 理 数据 分 析 的 各 个 方面 《从 数据 预 处 理 、 建 模 和 评估 ， 到 
生成 有 用 且 透 明 的 结果 ) 来 对 数据 科学 进行 自动 化 。 所 有 这 些 任务 的 实现 ， 都 应 当 尽 可 
能 地 不 需要 专家 知识 、 最 小 化 用 户 交互 的 次 数 及 可 控 且 智能 地 利用 计算 资源 。 

虽然 这 一 目标 很 难 且 还 有 很 多 工作 需要 做 ， 但 我 们 在 建立 自动 统计 系统 方面 目前 已 
经 取得 了 令 人 十 分 鼓舞 的 进展 。 实 际 上 ， 目 前 已 经 构建 了 多 个 自动 统计 系统 ， 虽 然 这 些 
统计 系统 在 目的 和 底层 技术 上 略 有 不 同 ， 但 它们 都 具备 相同 的 意图 及 极为 相似 的 设计 理 
念 。 希望 自动 统计 系统 的 构建 ， 能 够 让 更 多 的 人 具备 从 数据 中 获得 洞察 的 能 力 ， 以 及 帮 
助 社会 更 为 充分 地 利用 我 们 的 数据 资源 。 


人 @ 国 感谢 塔 米 姆 . 阿 德尔 。 赫 沙 姆 、 拉 斯 特 霍 夫 和 弗兰克 。 享 特 的 有 价值 反馈 。 
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概述 : ChaLearn 自动 机 器 学 习 挑战 赛 (NIPS 2015 - ICML 2016) 由 6 轮 受制 于 有 限 计算 资源 的 
机 器 学 习 竞赛 所 组 成 ， 需 要 注意 的 是 这 6 轮 竞 赛 的 难度 会 逐渐 增加 。 其 后 ， 紧 跟着 一 个 单 轮 的 自 
动机 器 学 习 挑 战 赛 (PAKDD 2018) 。 自 动机 器 学 习 的 设置 与 之 前 的 模型 选择 / 超 参 选择 的 挑战 
较为 不 同 ， 如 本 文 作者 为 NIPS 2006 所 组 织 的 : 参与 者 旨 在 开发 出 全 自动 且 计 算 高 效 的 系统 ， 该 
系统 能 够 在 无 人 工 干 预 的 情形 下 进行 训练 和 测试 ， 并 提交 相应 的 代码 。 本 章 主要 对 这 些 竞赛 的 结 
果 进 行 分 析 并 提供 相应 数据 集 的 细节 ， 而 这 些 细 节 对 于 参与 者 而 言 是 未 知 的 。 其 中 ， 获 胜 者 的 解 
决 方案 将 在 所 有 轮 的 所 有 数据 集 上 进行 系统 性 的 基准 测试 ， 并 与 Scikit-learn 中 可 用 的 标准 机 器 学 
习 算法 进行 比较 。 另 外 ， 本 章 讨 论 的 所 有 材料 ( 数据 和 代码 ) 均 已 被 公开 9. 
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大 约 在 十 年 前 ， 机 器 学 习 对 于 大 众 而 言 还 是 一 门 较为 小 众 的 学 科 。 对 于 机 器 学 习 科 
学 家 ， 机 器 学 习 属 于 “买方 市 场 ”: 他 们 设计 大 量 搜索 应 用 程序 的 算法 ， 并 持续 寻找 新 
的 有 趣 数据 集 。 积 累 了 海量 数据 的 互联 网 巨头 〈 如 谷歌 、 脸 书 、 微 软 和 亚马逊 ) 普及 了 
机 器 学 习 的 使 用 方法 ， 而 数据 科学 方面 的 竞赛 则 吸引 了 新 一 代 年 轻 科学 家 投入 机 器 学 习 
的 浪潮 之 中 。 现 如 今 ， 随 着 政府 和 企业 不 断 发 现 新 的 机 器 学 习 应 用 及 开放 数据 的 持续 增 
长 ， 机 器 学 习 已 经 转向 了 “卖方 市 场 ”， 即 似乎 每 个 人 都 需要 机 器 学 习 。 然 而 不 幸 的 是 ， 
现在 的 机 器 学 习 并 没有 完全 自动 化 : 仍 难以 弄 清楚 哪个 软件 适用 于 哪个 问题 、 如 何 将 不 
同类 型 的 数据 放 入 相应 的 软件 及 如 何 选择 合适 的 〈 超 ) 参数 。 而 ChaLearn 自动 机 器 学 
习 挑 战 赛 的 目标 就 在 于 引导 机 器 学 习 社区 的 力量 ， 以 逐步 降低 将 机 器 学 习 应 用 到 更 为 广 
泛 的 实际 问题 中 的 人 为 干预 程度 。 

全 自动 化 是 一 个 没有 止境 的 问题 ， 因 为 总 是 会 存在 先前 没有 遇 到 过 的 新 问题 。 具 体 
而 言 ， 第 一 次 自动 机 器 学 习 挑 战 赛会 被 限定 在 : 

有 监督 学 习 问 题 (分 类 和 回归 ) 。 

n 特征 向 量 表示 。 

= 同 质数 据 集 ， 即 训练 集 、 验 证 集 和 测试 集 具 有 相同 的 分 布 。 

m 小 于 200 MB 的 中 型 数据 集 。 


CD 访问 网 址 为 http://automl.chalearn.org。 


188 自动 机 器 学 习 ( AutoML ) : 方法 、 系 统 与 挑战 


n 有 限 的 计算 资源 ， 即 每 个 数据 集 上 的 运行 时 间 小 于 20min， 运 行 机 器 为 具有 56 
GB 运行 内 存 的 8 核 X86 64 计算 机 。 

这 里 排除 了 无 监督 学 习 、 主 动 学 习 、 迁 移 学 习 和 因果 发 现 问 题 ， 需 要 注意 的 是 它们 
也 是 非常 重要 的 ， 并 且 在 过 去 的 ChaLearn HARE" 中 已 经 被 考虑 ， 但 是 由 于 它们 每 个 
都 需要 不 同 的 评估 设置 , 这 使 得 结果 之 间 的 比较 变 得 非常 困难 ,不 过 , 这 里 并 不 排除 视频 、 
图 像 、 文 本 和 更 为 普遍 的 时 序数 据 的 处 理 。 实 际 上 ， 所 选 的 数据 集 就 含有 这 些 模式 的 若 
干 实例 。 值 得 说 明 的 是 ， 它 们 首先 会 在 特征 表示 中 进行 预 处 理 ， 因 此 不 会 对 特征 学 习 进 
行 强调 。 事 实 上 ， 从 基于 特征 表示 的 预 处 理 数据 中 学 习 本 身 就 已 经 涵盖 了 大 量 的 基础 知 
识 ， 而 一 个 能 够 解决 该 限制 性 问题 的 全 自动 化 方法 将 是 该 领域 的 一 大 显著 进步 。 这 个 受 
限 的 设置 环境 主要 包含 以 下 多 个 待 解决 的 难点 。 

= 不 同 的 数据 分 布 ， 即 数据 集 的 内 在 /几何 复杂 度 。 

= 不 同 的 任务 ， 回 归 、 二 分 类 、 多 类 别 分 类 及 多 标签 分 类 。 

= 不 同 的 评分 标准 ，AUC、BAC、MSE AF, # (具体 内 容 见 10.4.2 节 )。 

- 类 不 平衡 ， 平 衡 的 或 不 平衡 的 类 样本 比例 。 

- 稀疏 性 ， 完 整 矩 阵 或 稀疏 矩阵 。 

a 缺失 值 ， 是 否 存在 缺失 值 。 

- 类 别 型 变量 ， 是 否 存在 类 别 型 变量 。 

a 不 相关 变量 ， 是 否 存在 额外 的 不 相关 变量 (干扰 项 ) 。 

= 训练 样本 数量 ( DO, ， 少 量 或 大 量 的 训练 样本 。 

a 变量 / 特征 数量 (NO ， 少 量 或 大 量 的 变量 。 

训练 数据 矩阵 的 比例 (P/N), B9 N. B-NA B «KN, 

在 该 设置 中 ， 参 与 者 不 得 不 面 对 众多 的 建 模 / 超 参 选择 。 需 要 注意 的 是 ， 自 动机 器 
学 习 中 的 一 些 其 他 重要 方面 在 本 次 挑战 赛 中 没有 被 解决 的 ， 将 留 给 后 续 的 研究 来 解决 。 
这 些 方面 包括 但 不 限于 : 数据 的 提取 、 格 式 化 和 预 处 理 ， 特征 /表征 学 习 ; 有 偏 的 、 非 
同 质 、 漂 移 、 多 模 态 或 多 视图 数据 (基于 迁移 学 习 〉 的 检测 和 处 理 ; 算法 与 问题 的 适 配 ， 
可 能 含有 无 监督 、 有 监督 、 强 化 学 习 或 其 他 的 设置 ， 新 数据 的 获取 ， 如 主动 学 习 、 查 询 
学 习 、 强 化 学 习 或 因果 实验 ; 大 数据 量 的 管理 ， 包 括 创建 合适 大 小 和 分 层 的 训练 数据 集 、 
验证 数据 集 和 测试 数据 集 ， 选 择 满足 训练 和 运行 时 任意 资源 约束 的 算法 ， 生 成 和 复 用 工 
作 流 程 的 能 力 ;， 能 够 生成 有 价值 的 报告 。 
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该 挑战 赛 系 列 始 于 NIPS 2006 的 “模型 选择 游戏 ”B717， 它 会 向 参与 者 提供 一 个 基 
T MATLAT TRE CLOPW 的 机 器 学 习 工 具 箱 ， 而 该 工具 包 构 建 于 Spider 包 99 7 E. 
另外 ， 该 工具 包 通 过 结合 预 处 理 、 特 征 选择 、 分 类 和 后 处 理 模 块 ， 为 用 户 提供 了 一 种 灵 
活 的 模型 搭建 方法 ， 同 时 支持 分 类 器 的 集成 构建 。 该 游戏 的 主要 目标 是 建立 最 佳 的 超 模 
型 。 需 要 注意 的 是 ， 该 目标 重点 关注 模型 的 选择 ， 而 非 新 算法 的 开发 。 另 外 ， 所 有 的 问 
题 都 是 基于 特征 的 二 值 分 类 问题 , 并 提供 了 5 个 数据 集 。 参 与 者 需要 提交 他 们 模型 的 架构 。 
从 结果 上 看 ， 该 模型 选择 游戏 确认 了 交叉 验证 的 有 效 性 〈 获 胜 者 发 明了 一 种 名 为 交叉 索 
引 的 新 变 体 ) ， 并 着 重 强调 了 需要 部 署 新 的 搜索 技术 〈 如 粒子 群 优化 ) 以 提高 搜索 效率 
的 必要 性 。 

在 2015 一 2016 年 的 自动 机 器 学 习 新 挑战 赛 中 ， 引 入 了 “任务 ”的 概念 ， 即 针对 每 
个 数据 集 ， 都 提供 了 一 个 用 于 优化 的 特定 评分 标准 和 相应 的 时 间 预 算 。 最 初 ， 打 算 以 一 
种 较为 随意 的 方式 来 指定 不 同 数据 集 上 的 不 同时 间 预 算 。 但 最 后 出 于 实际 考虑 ， 将 每 个 
数据 集 上 的 时 间 预 算 固定 为 20min (除了 第 0 轮 ， 时 间 预 算 为 100 ~ 300s) 。 不 过 ， 由 
于 数据 集 的 规模 不 尽 相同 ， 这 就 给 参与 者 带 来 了 管理 分 配 时 间 的 压力 。 但 另外 ， 提 交 的 
文件 可 以 是 任意 Linux 平台 可 执行 的 ， 提 高 了 参与 者 的 自由 度 ， 这 主要 是 基于 开源 平台 
Codalab? 通过 自动 执行 实现 的 ,为 了 帮助 参与 者 , 竞赛 提供 了 一 个 基于 Scikit-learn 库 9519 
的 Python 入 门 工具 箱 。 这 促使 众多 参与 者 编写 了 围绕 Scikit-learn 的 封装 器 ， 而 这 也 正 
是 获胜 系统 Auto-sklearn?529/9 所 采用 的 策略 。 在 自动 机 器 学 习 挑 战 赛 之 后 ， 本 文 作者 组 
织 了 一 个 针对 单个 数据 集 (BI MADELINE) 的 “打败 Auto-sklearn” 的 游戏 。 在 该 游戏 
中 ， 参 与 者 可 以 提供 手动 设计 的 超 参 以 打败 Auto-sklearn 系统 。 但 最 终 没有 一 个 参与 者 
可 以 获胜 。 甚 至 连 Auto-sklearn 系统 的 设计 者 本 人 也 没有 打败 该 系统 。 在 实际 竞赛 中 ， 
参与 者 可 以 通过 图 形 化 交互 界面 提交 一 个 用 以 描述 sklearn 模型 和 相应 超 参 设置 的 JSON 
文件 。 该 界面 使 得 那些 想 要 将 他 们 自己 设计 的 搜索 方法 与 Auto-sklearn 进行 比较 的 研究 
者 ， 可 以 使 用 完全 相同 的 超 模 型 。 

在 2015 一 2016 年 ， 自 动机 器 学 习 研讨 会 成 员 围 绕 自动 机 器 学 习 挑 战 赛 组 织 了 一 系 
列 的 活动 ， 如 训练 营 、 暑 期 学 校 和 研讨 会 等 @。 自 动机 器 学 习 挑 战 赛 是 JCNN 2015 和 


http://clopinet.com/isabelle/Projects/NIPS2006/。 
http://competitions.codalab.org。 
http://Scikit-learn.org/。 
https://automl.github.io/auto-sklearn/stable/. 
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2016 竞赛 项 目的 官方 选择 之 一 ， 而 竞赛 的 结果 则 在 ICML 和 NIPS 2015 年 至 2016 年 的 
AutoML 和 CiML 研讨 会 上 进行 了 讨论 。 另 外 ， 也 有 一 些 关 于 这 些 竞 赛 的 相关 文献 ， 如 
文献 [33] 给 出 了 AutoML 挑战 赛 @ 的 设计 细节 ， 文 献 [32，34] 回顾 了 ICML 2015 年 和 
2016 年 自动 机 器 学 习 研讨 会 上 所 展示 的 里 程 碑 性 进展 和 最 终结 果 。 在 自动 机 器 学 习 挑 战 
赛 2015/2016 中 ， 总 共有 6 轮 竞赛 ， 每 轮 都 有 5 个 数据 集 。 随 后 ， 本 章 作者 为 PAKDD 
20182 组 织 了 一 个 新 的 AutoML 竞赛 ， 总 共 只 包含 两 个 阶段 :开发 阶段 和 “ 盲 测 ” 阶 段 ， 
每 个 阶段 都 有 5 个 数据 集 。 

除了 前 面 所 给 出 的 分 析 之 外 ， 本 章 接 下 来 将 对 挑战 赛 中 所 有 数据 集 上 的 获胜 方案 进 
行 系统 性 研究 ， 并 与 Scikit-learn 中 所 实现 的 常用 机 器 学 习 方法 进行 比较 ， 进 而 提供 数据 
集 和 相应 分 析 的 未 被 发 表 的 细节 内 容 。 

需要 说 明 的 是 ， 本 章 部 分 内 容 基于 之 前 已 出 现 过 的 文献 [32 ~ 34, 36]， 以 及 本 章 的 
补充 内 容 〈 在 线 附录 ， 可 以 通过 访问 本 书 的 网 址 http://automl.org/book 来 获取 ) 。 


10.2 问题 形式 化 和 概述 


10.2.1 问题 的 范围 


该 挑战 赛 系列 主要 关注 机 器 学 习 中 的 有 监督 学 习 问 题 ， 尤 其 是 解决 无 须 人 工 干预 的 
受 给 定 限制 条 件 约束 的 分 类 问题 和 回归 问题 。 为 此 ， 本 章 发 布 了 大 量 基于 给 定 特 征 表示 
的 预 格式 化 的 数据 集 ， 即 每 个 示例 都 由 固定 数量 的 数值 系数 组 成 ， 具 体内 容 见 10.3 节 。 

在 机 器 学 习 应 用 中 ， 并 不 总 是 区 分 输入 变量 和 输出 变量 。 举 例 而 言 ， 在 推荐 系统 中 ， 
问题 通常 被 定义 成 预测 每 个 变量 的 缺失 值 ， 而 非 预 测 某 个 特定 变量 的 值 外。 在 无 监督 学 
习 中 外， 目标 是 用 一 种 简单 而 紧凑 的 方式 来 解释 数据 ， 最 终 涉 及 对 隐 变 量 进行 推断 ， 如 
聚 类 算法 所 产生 的 类 隶属 度 。 

本 章 只 考虑 严格 的 有 监督 学 习 设置 ， 其 中 数据 以 相同 且 独 立 分 布 的 输入 一 输出 对 的 
形式 呈现 。 所 使 用 的 模型 限于 固定 长 度 的 向 量化 表示 ， 且 不 包含 时 间 序 列 预测 问题 。 而 


(D http://codalab.org/AutoML 。 
(Q) https://www.4paradigm.com/competition/pakdd2018。 
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该 挑战 赛 中 的 文本 、 语 音 和 视频 处 理 任务 ， 都 已 经 被 预 处 理 成 合适 的 固定 长 度 的 向 量 
表示 。 

所 提 任 务 的 困难 程度 主要 取决 于 数据 的 复杂 性 ， 如 类 不 平衡 、 数 据 稀疏 、 数 据 缺失 
和 类 别 型 变量 等 ， 而 测试 平台 则 由 来 自 多 个 领域 的 数据 组 成 。 尽 管 已 经 存在 一 些 能 够 处 
理 这 些 问 题 的 机 器 学 习 工具 箱 ， 但 是 在 受 限 的 计算 资源 约束 下 为 给 定 的 数据 集 、 任 务 和 
评估 指标 找到 能 够 最 大 化 性 能 的 方法 和 超 参 设置 ， 仍 需要 大 量 的 人 力 工作 。 对 于 参与 者 
而 言 ， 其 面临 的 一 个 主要 挑战 是 创建 无 顷 人 类 交互 的 完美 黑箱 ， 以 缓解 未 来 十 年 里 数据 
科学 家 的 短缺 。 


10.2.2 全 模型 选择 


本 章 将 参与 者 的 方案 称 为 超 模 型 ， 以 表明 它们 由 更 为 简单 的 组 件 所 构成 。 举 例 而 言 ， 
对 于 分 类 问题 ， 参 与 者 可 能 会 设计 一 个 超 模型 ， 该 超 模 型 由 若干 个 分 类 技术 (如 最 近邻 、 
线性 模型 、 核 方法 、 神 经 网 络 及 随机 森林 ) 组 合 而 成 。 更 为 复杂 的 超 模型 可 能 还 包含 预 
处 理 、 特 征 构建 和 特征 筛选 模块 。 一 般 而 言 ， 一 个 形式 为 y= f (xia) 的 预测 模型 会 包含 
以 下 部 分 : 

n 参数 集合 a=[ aaa) 。 

学 习 算 法 (又 称 为 训练 器 ) ,主要 使 用 训练 数据 来 优化 参数 。 

n 基于 学 习 算 法 所 生成 的 形式 为 y= f(x) 的 训练 模型 ( 又 称 为 预测 器 ) 。 

- 明确 的 目标 函数 J(f) ， 用 于 评估 模型 在 测试 数据 上 的 性 能 。 

接 下 来 考虑 由 超 参 向 量 9=[ close=0.,6,,…,9,) 所 定义 的 模型 假设 空间 。 该 超 参 向 量 
不 仅 可 以 包含 切换 可 选 模型 所 对 应 的 参数 ， 而 且 可 以 包含 建 模 选项 ， 如 预 处 理 参数 、 核 
方法 中 的 核 函 数 类 型 、 神 经 网 络 中 的 神经 元 和 网 络 层 数 量 ， 或 者 训练 算法 中 的 正则 化 参 
数 外。 部 分 作者 称 该 问题 为 全 模型 选择 问题 06 中， 另 一 部 分 作者 称 该 问题 为 CASH 即 
算法 选择 和 超 参 优化 的 组 合 ) 问题 外 。 本 章 将 超 模 型 表示 为 

y= F(x:0)= f(x:a(0),0) (10.1) 

其 中 ， 模 型 参数 向 量 a DESHE Oo 的 隐 式 函数 ， 而 该 超 参 向 量 通过 使 用 训练 器 来 获得 
9 的 固定 值 。 另 外 ， 训 练 数 据 由 输入 一 输出 对 x y,} 构成 。 参 与 者 需要 设计 能 够 训练 超 
参 0 的 算法 。 这 可 能 需要 对 超 参 空间 进行 智能 采样 ， 以 及 将 可 用 的 训练 数据 划分 成 可 供 
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训练 和 评估 方案 预测 能 力 的 数据 子 集 〈 一 次 或 多 次 ) 。 

作为 一 个 优化 问题 ， 模 型 选择 是 一 个 双 层 优化 程序 e *， 入。 其 中 ， 较 低层 级 的 目标 
九 对 模型 的 参数 a 进行 训练 ， 而 上 层 的 目标 J, 则 是 对 超 参 9 进 行 训练 ， 两 者 会 同时 进行 
优化 “如 图 10.1 所 示 ) 。 若 从 统计 的 角度 来 考虑 ， 则 模型 选择 是 一 个 多 次 测试 的 问题 。 
其 中 ， 性 能 预测 < 的 错误 条 会 随 着 模型 / 超 参 尝 试 次 数 的 增多 而 减少 。 或 者 说 ， 更 为 一 
般 地 ， 性 能 预测 < 的 错误 条 会 随 着 超 模型 C (0) 复杂 度 的 增加 而 减少 。 另 外 ， 自 动机 器 
学 习 的 一 个 关键 要 素 是 通过 正则 化 来 避免 上 层 目 标的 过 拟 合 ， 这 与 对 低层 级 目标 ./ 进 
行 正则 化 的 方式 非常 相似 。 


EZ (0) 
© 3 8 


argmin IR. ;0,a)] JOL TaT argmin /lA .;0,0)] 


10.1 双 层 优化 


ER (a) 一 个 参数 和 超 参 需要 被 调整 的 学 习 机 示意 图 ; b) 将 参数 和 超 参 数 的 调整 过 程 解 看 成 两 
个 层次 。 其 中 ， 上 层 目 标 .用 于 优化 超 参 8， 下 层 目标 儿 用 于 优化 参数 a 。 


该 问题 设置 还 可 以 使 用 集成 方法 ， 也 就 是 让 若干 个 “简单 ”模型 投票 做 出 最 终 决 


FNS 1 下 。 使 用 集成 方法 时 ， 可 以 将 参数 0 理解 成 投票 的 权重 。 简 洁 起 见 ， 将 所 有 的 
参数 集中 在 单个 向 量 中 ， 但 可 以 采用 更 为 复杂 的 结构 〈 如 树 或 图 ) 来 定义 超 参 空间 691. 


10.2.3 ESIE 


每 个 处 理 过 数据 的 人 都 会 面临 一 些 常见 的 建 模 选项 ， 如 缩放 、 标 准 化 、 缺 失 值 填充 、 
变量 编码 〈 针 对 类 别 型 变量 ) 、 变 量 离散 化 、 非 线性 程度 和 模型 架构 等 。 目 前 ， 机 器 学 
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习 已 经 能 够 减少 超 参 的 数量 , 并 生成 可 以 执行 任务 (如 分 类 和 回归 ) 的 黑 盒 外 各 ,尽管 如 此 ， 
任何 真实 世界 中 的 问题 在 将 数据 输入 自动 方法 之 前 ， 至 少 需要 对 数据 做 一 些 准 备 ， 因 此 仍 
需 一 些 建 模 选 项 。 实 际 上 ， 对 于 很 多 复杂 的 任务 〈 如 文本 、 图 像 、 视 频 和 语音 的 处 理 ) ， 
我 们 在 基于 深度 学 习 方法 的 端 到 端 自动 机 器 学 习 上 已 经 取得 了 很 大 的 进展 种。 不 过 ， 这 
些 方 法 仍 含有 很 多 建 模 选 项 和 超 参 。 

虽然 为 各 种 应 用 程序 设计 模型 已 经 成 为 机 器 学 习 社 区 的 焦点 ， 但 致力 于 优化 超 参 的 
工作 还 比较 缺乏 。 常 见 的 超 参 优化 方法 (如 试 错 和 网 格 搜索 》 可 能 会 为 小 型 数据 集 找到 
过 拟 合 的 模型 ， 而 为 大 型 数据 集 找到 欠 拟 合 的 模型 。 其 中 ， 过 拟 合 主要 指 所 生成 的 模型 
在 训练 数据 上 表现 良好 ， 但 在 未 见 数据 上 表现 很 差 ， 即 模型 的 泛 化 能 力 很 弱 ， 欠 拟 合 指 
的 是 所 选 的 模型 过 于 简单 ， 无 法 刻画 数据 的 复杂 性 ， 导 致 模型 在 训练 数据 和 测试 数据 上 
的 表现 都 很 差 。 尽 管 目前 有 很 好 的 优化 参数 的 现成 算法 ， 但 最 终 用 户 仍 需要 负责 组 织 他 
们 的 数值 实验 ， 以 找到 待考 虑 的 众多 模型 中 的 最 佳 模型 。 实 际 上 ， 由 于 缺乏 时 间 和 资源 ， 
他 们 通常 会 采用 特定 的 技术 来 执行 模型 / 超 参 选 择 。 在 文献 [42，47] 中 ， 约 安 尼 季 斯 和 
朗 福 德 研究 了 常见 的 基础 性 错误 ， 如 糟糕 的 训练 / 测试 集 划 分 、 不 恰当 的 模型 复杂 度 、 
使 用 测试 集 来 选择 超 参 、 计 算 资源 的 滥用 及 误导 性 的 测试 标准 等 ， 这 些 都 有 可 能 导致 整 
个 研究 变 得 无 效 。 参 与 者 需要 避免 这 些 缺 陷 ， 并 设计 出 可 以 进行 盲 测 的 系统 。 

挑战 赛 问题 设置 中 的 一 个 额外 要 求 是 代码 能 够 在 有 限 的 计算 资源 下 进行 测试 。 也 就 
是 说 ， 对 于 每 个 任务 ， 执 行 时 间 的 限制 是 固定 的 ， 并 给 出 了 最 大 的 内 存 使 用 量 。 这 就 需 
要 参与 者 设计 给 定时 间 内 的 解决 方案 ， 因 此 需要 他 们 从 计算 的 角度 来 优化 模型 搜索 。 
总 结 而 言 ， 参 与 者 需要 同时 解决 优化 方案 的 过 拟 合 / 欠 拟 合 问题 及 搜索 效率 问题 ， 如 
文献 [43] 所 述 。 事 实 上 ， 计 算 资源 的 约束 比 过 拟 合 问题 给 参与 者 带 来 的 挑战 更 大 。 因 此 ， 
核心 的 工作 是 使 用 前 沿 的 优化 方法 来 设计 有 效 的 新 搜索 技术 。 


10.2.4 ”模型 搜索 策略 


大 多 数 实践 者 会 采用 启发 式 方法 ， 如 使 用 网 格 搜索 或 均匀 采样 对 9 空间 进行 采样 ， 
以 及 使 用 k 折 交叉 验证 作为 上 层 目 标 J, 四。 在 该 框架 中 ，0 并 非 顺序 地 进行 优化 外。 所 
有 的 参数 都 按照 一 种 常规 的 方式 被 采样 ， 通 常 是 线性 或 者 对 数 缩放 。 这 就 带 来 了 大 量 的 
可 能 性 ， 而 这 些 可 能 性 将 随 着 9 维度 的 增加 呈 指 数 级 增长 。#k 折 交叉 验证 将 数据 集 分 成 
kh}, PW (4-1) 份 用 于 训练 ， 剩 下 的 1 份 用 于 测试 。 调 整 用 于 测试 的 那 份 数 据 ， 即 
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可 以 得 到 kt 个 测试 得 分 ， 对 这 个 得 分 取 平均 ， 则 平均 后 的 得 分 为 最 终 的 测试 得 分 。 需 
要 注意 的 是 ， 当 前 很 多 机 器 学 习 工 具 箱 都 支持 交叉 验证 ， 但 缺乏 如 何 决定 网 格 搜索 点 数 
量 和 k 值 的 原则 性 指导 文献 [20] 除外 ) ， 也 缺乏 如 何 对 厂 进 行 正则 化 的 指导 ， 而 该 方 
法 虽然 简单 但 是 一 个 很 好 的 基准 对 比方 法 。 

目前 ,已经 尝试 了 使 用 双 层 优化 方法 来 优化 连续 型 超 参 ， 并 采用 k 折 交叉 验证 估计 
器 "名 或 留 一 法 估计 器 作为 上 层 目标 ./。 作 为 在 所 有 训练 实例 上 训练 单个 预测 器 的 副 
产品 (如 虚拟 留 一 法 09) ， 可 以 以 封闭 的 形式 有 效 地 计算 留 一 法 估计 器 。 另 外 ， 通 过 增 
加 一 个 /的 正则 化 项 对 该 方法 进行 了 改进 1。 而 通过 对 进行 局 部 二 次 近似 dd， 梯度 
下 降 很 好 地 提高 了 搜索 的 效率 。 在 某 些 情况 下 ， 完 整 的 (9) 可 以 通过 一 些 关 键 示例 被 
计算 出 @, 甸 。 除 此 之 外 ， 有 些 方法 直接 最 小 化 留 一 法 误差 的 近似 值 或 上 界 ， 而 非 它 的 
精确 形式 US 中。 不 过 ， 这 些 方法 仍 受 限于 特定 模型 和 连续 型 超 参 。 

全 模型 选择 的 一 个 早期 尝试 是 使 用 k 折 交叉 验证 作为 .的 模式 搜索 方法 。 它 通过 相 
同 大 小 的 步 长 来 探索 超 参 空间 ， 当 任何 参数 的 改变 都 无 法 进一步 降低 .时 ， 会 将 步 长 减 
半 并 重复 探索 过 程 ， 直 到 步 长 足够 小 时 为 止 四 。 在 文献 [24] 中 ， 埃 斯 卡 兰 特等 使 用 粒 
子 群 优化 来 解决 全 模型 选择 问题 ， 即 通过 候选 解决 方案 粒子 ) 的 种 群 ， 并 基于 粒子 的 
位 置 和 速度 在 超 参 空间 中 移动 这 些 粒子 ， 对 全 模型 选择 问题 进行 优化 。 需 要 说 明 的 是 ， 
这 里 也 采用 k 折 交叉 验证 作为 .]。。 结 果 上 ， 该 方法 检索 到 小 于 76% 实例 中 的 获胜 模型 。 
另外 ， 过 拟 合 主要 通过 启发 式 的 早 停 法 来 控制 ， 以 及 没有 对 训练 数据 和 验证 数据 的 划分 
比例 进行 优化 。 虽 然 为 了 降低 过 拟 合 风险 ， 我 们 在 实验 设计 上 取得 了 一 些 进展 m, 
尤其 是 使 用 原则 性 方法 划分 数据 集 思 ， 但 据 我 们 所 知 ， 目 前 还 没有 人 完全 解决 数据 的 最 
佳 分 割 问题 。 

虽然 对 第 二 层 推理 进行 正则 化 是 频率 机 器 学 习 社 区 的 一 项 最 新 补充 ， 但 它 凭借 超 先 
验 的 概念 已 经 成 为 贝 叶 斯 建 模 的 固有 部 分 。 一 些 多 层 优化 方法 结合 了 重要 性 采样 和 蒙特 
卡 洛 -马尔 科 夫 链 外。 另外 ， 贝 叶 斯 超 参 优化 这 一 领域 的 发 展 十 分 迅速 ， 并 取得 了 很 好 
的 结果 ， 特 别 是 使 用 高 斯 过 程 对 泛 化 性 能 进行 建 模 I 多 。 但 是 在 含有 众多 超 参 〈 包 括 
离散 参数 ) 的 结构 化 优化 问题 上 ， 对 Paty) 和 PO) 进行 建 模 而 非 直 接 对 P( yx) 进行 建 
模 的 树 形 Parzen 估计 器 CTPE) @ 被 证 明 效果 优 于 基于 高 斯 过 程 的 贝 叶 斯 优化 方法 四 。 
这 些 方法 的 核心 思想 都 是 将 (9) 拟 合成 一 个 平滑 函数 以 尝试 减少 方差 ， 并 对 欠 采 样 超 
参 空间 区 域 的 方差 进行 估计 以 将 搜索 引导 向 高 方差 区 域 。 实 际 中 ， 这 些 方法 都 是 非常 有 
价值 的 , 而 且 部 分 观点 可 以 应 用 在 频率 设置 中 。 举例 而 言 , 基于 随机 森林 的 SMAC 算法 所 
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一 方面 能 够 在 某 些 实例 分 布 上 呈 数 量 级 地 加 速 局 部 搜索 和 树 搜索 算法 ， 另 一 方面 也 被 发 
现 是 非常 有 效 的 机 器 学 习 算 法 的 超 参 优化 方法 ， 它 能 够 比 其 他 算法 更 好 地 扩展 到 高 维和 
离散 输入 维度 外。 值得 注意 的 是 ， 贝 叶 斯 优化 方法 会 经 常 与 其 他 技术 如 元 学 习 和 集成 
FRE") 相 结 合 ， 以 在 一 些 有 时 间 限 制 的 挑战 设置 中 取得 优势 四 。 除 此 之 外 ， 这 些 方法 
中 的 部 分 方法 同时 考虑 了 双 层 优化 ， 并 将 时 间 开 销 作为 超 参 搜索 的 关键 性 指导 S 

除了 贝 叶 斯 优化 ， 文 献 中 还 存在 一 些 其 他 方法 ， 并 随 着 近期 深度 学 习 的 兴起 ， 获 得 
了 大 量 的 关注 。 最 近 ， 强 化 学 习 的 理念 已 经 被 用 于 构建 最 优 的 神经 网 络 架 构 目 四。 这 些 
方法 将 超 参 优化 问题 形式 化 成 强化 学 习 问 题 ， 例 如 ， 状 态 为 实际 的 超 参 设置 (如 网 络 结 
HD 、 行 动 为 增加 或 删除 一 个 模块 《如 一 个 卷 积 神经 网 络 层 或 池 化 层 ) ， 奖 励 为 验证 集 
上 的 准确 度 。 随 后 ， 可 以 直接 使 用 现 有 的 强化 学 习 算法 (如 RENFORCE、Q- 学 习 、 蒙 
特 卡 洛 树 搜索 等 ) 对 该 问题 进行 求解 。 除 此 之 外 ， 还 有 一 些 基于 进化 算法 的 架构 搜索 方 
法 中。 具体 而 言 ， 首 先 会 构建 一 个 超 参 设 置 (个 体 ) 的 集合 (种 群 ，》， 然 后 根据 它们 
的 交叉 验证 得 分 (适应 度 ) 修改 (交叉 和 变异 ) 和 剔除 不 具 潜力 的 超 参 设置 。 几 代 之 后 ， 
种 群 的 全 局 质量 会 得 以 提升 。 值 得 注意 的 是 ， 强 化 学 习 和 进化 算法 的 一 个 重要 共同 点 是 
它们 都 对 探索 一 利用 进行 了 权衡 。 尽 管 这 些 方法 都 取得 了 很 好 的 结果 ， 但 是 它们 都 需要 
大 量 的 计算 资源 ， 而 且 部 分 方法 (尤其 是 进化 算法 ) 的 扩展 性 很 差 。 在 文献 [56] 中 ， 法 
姆 等 对 子 模型 之 间 的 权重 进行 了 共享 ， 在 显著 加 速 搜索 过 程 中 的 同时 取得 了 有 一 定 竞 
争 力 的 结果 。 

值得 说 明 的 是 ， 不 仅 可 以 将 参数 拟 合 问题 划分 成 两 个 层级 ， 而 且 可 以 将 其 划分 成 多 个 
层级 ， 不 过 会 以 增加 额外 的 复杂 度 为 代价 ， 即 需要 对 数据 进行 层级 划分 以 执行 多 个 或 嵌 套 
的 交叉 验证 中、 在 不 同 层级 上 进行 训练 和 验证 时 可 能 的 数据 不 足 ， 以 及 计算 负载 的 增加 。 

表 10.1 展示 了 频率 设置 中 多 层级 参数 优化 的 一 个 典型 示例 。 假 定 现在 使 用 一 个 具有 
两 个 学 习 机 的 机 器 学 习 工 具 箱 : Kridge《〈 核 岭 回 归 ) 和 Neural (神经 网 络 ， 又 称 “ 深 
度 学 习 ” 模 型 ) 。 在 顶层 ， 使 用 一 个 测试 程序 来 评估 最 终 模 型 的 性 能 ， 需 要 注意 的 是 ， 
这 不 是 推理 层 。 顶 层 的 推理 算法 Validation ({GridCV(Kridge, MSE), GridCV (Neural, 
MSE)}，MSE) 被 递归 地 分 解 为 它 的 元 素 。 具 体 而 言 ，Validation 使 用 划分 的 数据 
D=(D,,,Dy,) 来 比较 学 习 机 Kridge 和 Neural 的 [ D, AFIA, Dan AFRE, Y 
误差 (MSE) 为 评价 指标 | 评估 函数 。 其 中 ， 算 法 GridCV 为 一 个 带 有 10 折 交 叉 验 证 
MSE 评估 函数 的 网 格 搜 索 ， 并 对 超 参 9 进行 优化 。 在 内 部 ，Kridge 和 Neural 都 使 用 虚 
拟 留 一 法 交叉 验证 (CV) 来 调整 xy， 使 用 经 典 的 正则 化 风险 函数 来 调整 a 。 
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表 10.1 多 层级 推理 算法 的 典型 示例 


GUB TER Dre 


Tm 使 用 验证 数据 5 
Validation 选择 最 终 算法 D=[D,.Dy.] 
9 常规 采样 值 上 的 10 dr 
GridCV R Y, = , 

ridi 交叉 验证 D, [D. Daley 
Kridge( 0 ) 基于 虚拟 留 一 法 CV 选择 | 六 D, - [n pa dl, 
Nerual( 0 ) i 正则 化 参数 y 


Kridge( 8 , y ) 基于 梯度 下 降 的 矩阵 逆 | 六 
e p eee 
Kridge( 0 y.a) 
fee me d e > 
E: TE Validation ((GridCV (Kridge, MSE), GridCV (Neural, MSE)}, MSE) 被 递归 地 分 解 为 它 的 
元 素 。 在 它 上 面 调用 方法 “train”， 使 用 数据 Dov 可 以 得 到 函数 随后 使 用 测试 ( f,MSE, Dre) 对 函 
数 f 进 行 测试 。 其 中 ， 符 号 [.] 表示 多 个 数据 划分 交叉 验证 ) 上 的 平均 结果 ，NA 表示 “不 适用 ”。 
一 个 具有 参数 a MES 9 的 模型 族 已 表示 为 (9,c) 。 与 通常 将 超 参 放 在 最 后 的 惯例 不 同 ， 本 章 按 照 


推理 层级 来 降序 排列 超 参 。 而 作为 底层 算法 考虑 的 下 不 执行 任何 训练 ， 即 train ( (6,w)) 只 返回 函 
数 A(xg,aw)。 


借鉴 传统 的 特征 选择 分 类 方法 D 38 各， 模型 选择 策略 也 被 划分 为 过 滤器 、 包 装 器 
MRAD, WA 10.2 所 示 。 其 中 ， 过 滤器 是 缩小 模型 空间 的 方法 ， 无 须 对 学 习 器 进行 
训练 ， 这 类 方法 有 预 处 理 、 特 征 构建 、 核 函数 设计 、 结 构 设计 、 先 验 或 正则 化 算 子 选择 、 
噪声 模型 的 选择 以 及 用 于 特征 选择 的 过 滤 方 法 。 虽 然 部 分 过 滤器 使 用 了 训练 数据 ， 但 大 
多 数 过 滤器 吸收 了 任务 上 的 人 类 先 验 知识 或 来 自 于 先前 任务 的 知识 。 近 来 ， 文 献 [5] 提 
出 将 协同 过 滤 方 法 应 用 到 模型 搜索 。 之 于 包装 器 方法 ， 主 要 将 学 习 器 看 成 是 能 够 从 示例 
中 进行 学 习 并 且 在 训练 后 能 够 做 出 预测 的 黑 盒 。 它 们 使 用 超 参 空间 中 的 搜索 算法 〈 如 网 
格 搜索 或 随机 搜索 ) ， 以 及 使 用 评估 函数 来 评估 已 训练 学 习 器 的 性 能 (交叉 验证 错误 或 
贝 叶 斯 证 据 ) 。 嵌 入 方法 与 包装 器 较为 相似 ， 不 过 嵌入 方法 主要 利用 机 器 学 习 算 法 的 知 
识 , 使 得 搜索 更 为 有 效 。 举 例 而 言 ,一些 嵌入 方法 会 以 封闭 的 形式 计算 留 一 法 解决 方案 (不 
遗漏 任何 内 容 ) ， 即 在 所 有 训练 数据 上 执行 单个 模型 训练 〈 如 文献 [381) 。 另 外 ， 其 他 
一 些 嵌 入 方法 会 同时 优化 参数 和 超 参 数 9 m, 
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(b) 
图 10.2 ” 双 层 推断 方法 


ES: (a) 过 滤器 方法 ， 以 不 改动 学 习 器 参数 的 方式 选择 超 参 〈 无 箭头 表示 没有 进行 参数 训练 ) ; 〈b) 包 
装 器 方法 ， 使 用 训练 后 的 学 习 器 来 选择 超 参 ， 并 将 学 习 器 视 为 黑 盒 ，〈c) 嵌入 方法 ， 使 用 学 习 器 的 结 
构 和 /或 参数 知识 来 指导 超 参 搜索 。 


总 结 而 言 ， 很 多 作者 只 关注 搜索 的 效率 ， 而 忽略 了 第 二 层 目标 J 的 过 拟 合 问题 ， 7, 
通常 由 k 折 交叉 验证 (kK 可 以 是 任意 值 ) 来 表示 。 为 了 弥补 该 不 足 ， 贝 叶 斯 方法 通过 超 
先 验 概念 引入 了 避免 过 拟 合 的 技术 ， 但 代价 是 需要 对 数据 的 生成 方式 作假 设 且 无 法 提供 
性 能 保证 。 在 本 章 作者 已 知 的 现 有 全 模型 选择 方法 中 ， 还 没有 将 该 问题 看 成 建 模 选择 和 
数据 分 割 上 的 正则 化 函数 .的 优化 问题 。 实 际 上 ， 在 共同 解决 统计 和 计算 的 问题 上 还 有 
很 多 工作 需要 去 做 。 而 自动 机 器 学 习 挑战 赛 系列 提供 了 用 于 比较 和 对 比 能 够 解决 这 些 问 
题 方 案 的 基准 ， 避 免 了 设计 者 和 评估 者 的 偏见 。 


10.3 & H 


在 众多 协助 者 的 帮助 下 ， 于 2014 年 夏季 收集 了 第 一 批 的 70 个 数据 集 ， 最 终 从 中 为 
2015/2016 自动 机 器 学 习 挑 战 赛 挑选 了 30 个 数据 集 〈 见 表 10.2 和 在 线 附 录 ) 。 这 些 数 
据 集 涵 盖 了 广泛 的 应 用 领域 : 生物 医学 、 生 态 学 、 能 源 与 可 持续 性 管理 、 文 本 、 音 频 、 
语音 、 视 频 和 其 他 传感器 数据 处 理 、 互 联网 社交 媒体 管理 和 广告 、 市 场 分 析 与 金融 预测 。 
需要 注意 的 是 ， 要 对 数据 进行 预 处 理 以 获得 特征 表示 ， 即 每 个 实例 由 固定 数量 的 数值 系 
数 所 组 成 。 另 外 ， 挑 战 赛 包含 文本 、 语 音 和 视频 处 理 任务 ， 但 并 非 用 它们 原本 的 可 变 长 
度 表征 。 


系统 与 挑战 
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对 于 挑战 赛 2018， 从 第 一 批 数据 集中 选择 了 3 个 数据 集 (需要 注意 的 是 ， 这 3 个 数 
据 集 在 第 一 次 挑战 赛 中 未 被 使 用 ), 并 添加 了 由 新 的 组 织 者 和 赞助 商 收 集 的 7 个 新 数据 集 ， 
具体 内 容 见 表 10.3 和 在 线 附录 。 


510.3 ”自动 机 器 学 习 挑 战 赛 2018 的 数据 集 


阶段 数据 集 Sparse | Miss | C, | J, 
1 1ADA 0.67 0 0 0 
1 2 ARCENE 0.54 0 0 0 
1 3 GINA 0.03 0.31 0 0 | 31532] 315 
1 


| 1 [4cumtermo | 0.33] 0.53 | o | o f o | 5000 [5000 
[1 [se oohojon 1 | o ferso] o faras] zz [rers] 
[2 hm — [oor[ o [ou] 1 | o [2000] o [zoos] s0 [22471 
[2 pm —— [oor[ on | o | 1 | o [sul o [srs] 76 fara 
[2 fern [oo| oo [ozs] 1 | o [zu | o [sos | us 27046 
| 2 |4RICCARDO [oez| 051 | o | o | o | 5000 [sooo 
| 2 [srm [oo| o [on] : | o [696i] o |28278| so [31773] 
园 : 所 有 任务 都 是 二 元 分 类 问题 ， 评 价 指标 为 AUC。 对 于 所 有 数据 集 ， 时 间 预 算 都 是 相同 的 (1 200s) 。 

挑战 赛 分 为 两 个 阶段 ， 阶 段 1 为 开发 阶段 ， 阶 段 2 为 最 终 的 “ 盲 测 ” 阶 段 。 其 中 ，G,, 为 类 别 平衡 度 ; 

Sparse JIRE; Miss 为 缺失 值 比例 ，C, 为 类 别 型 变量 ,为 不 相关 变量 比例 ，P, 为 测试 实例 数量 ; 

已 ,为 验证 实例 数量 ， 已 ,为 训练 实例 数量 ，N 为 特征 数量 ， 已 /N 为 数据 集 的 纵横 比 。 

部 分 数据 集 来 源 于 公开 数据 ， 不 过 会 将 它们 重新 处 理 成 新 的 表示 以 隐藏 其 识别 性 信 
息 ， 除 了 挑战 赛 2015/2016 的 最 后 一 轮 和 挑战 赛 2018 的 最 后 一 个 阶段 ， 它 们 会 包含 全 
新 的 数据 。 

在 挑战 赛 2015/2016 中 ， 数 据 的 复杂 度 会 逐 轮 增加 。 第 0 轮 介绍 了 之 前 挑战 赛 中 的 
5 个 〈 公 开 ) 数据 集 ， 并 阐明 了 后 续 各 轮 中 将 会 遇 到 的 困难 。 

COD 初级 轮 。 只 有 二 值 分 类 问题 ， 无 缺失 数据 、 无 类 别 型 特征 、 数 量 特征 中 等 
(<2 000) 、 类 别 较为 平衡 。 挑 战 在 于 需要 处 理 稀 朴 矩阵 和 全 和 矩阵、 不 相关 变量 和 不 同 
IH PN. 

(2) 中 级 轮 。 含 有 二 值 分 类 和 多 类 别 分 类 问题 ， 挑 战 在 于 需要 处 理 类 别 不 平衡 、 
多 个 类 别 、 缺 失 值 、 类 别 型 变量 和 多 达 7 000 个 特征 。 

(3) 高 级 轮 。 含 有 二 值 分 类 、 多 类 别 分 类 和 多 标签 分 类 问题 ， 挑 战 在 于 需要 处 理 
多 达 300 000 个 特征 。 

(4) 专家 轮 。 含 有 分 类 和 回归 问题 ， 挑 战 在 于 需要 处 理 整个 范围 的 数据 复杂 度 。 
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(5) 大 师 轮 。 含 有 所 有 难度 的 分 类 问题 和 回归 问题 ， 挑 战 在 于 需要 从 全 新 的 数据 
中 学 习 。 

挑战 赛 2018 的 所 有 数据 集 都 是 二 值 分 类 问题 。 由 于 该 挑战 赛 设计 上 的 原因 ， 本 次 
挑战 赛 没有 使 用 验证 集 部 分 ， 即 使 它们 可 以 用 于 一 些 数据 集 。 其 中 ，3 个 复 用 的 数据 集 
与 挑战 赛 2015/2016 中 的 第 一 轮 数据 集 和 第 二 轮 数据 集 的 难度 相近 。 但 是 ， 其 中 的 7 个 
新 数据 集 引 入 了 之 前 挑战 赛 中 所 没有 的 新 困难 。 最 为 显著 的 是 极端 的 类 别 不 平衡 、 类 别 
型 特征 的 存在 和 实例 间 的 时 序 依赖 性 ， 这 些 都 可 以 被 参与 者 用 来 设计 他 们 的 方法 2。 另 
外 ， 两 次 挑战 赛 的 数据 集 都 可 以 通过 网 址 http://automl.chalearn.org/data 来 下 载 。 


10.4 ”挑战 赛 协 议 


本 节 主 要 介绍 能 够 保证 评估 完全 性 和 公平 性 的 设计 选项 。 挑 战 赛 主 要 关注 在 给 定时 
间 和 计算 资源 约束 下 (10.4.1 节 ) ， 无 须 任何 人 工 介入 的 有 监督 学 习 任务 〈 分 类 问题 和 
回归 问题 )》， 并 且 会 给 定 因数 据 集 不 同 而 不 同 的 评估 标准 〈10.4.2 节 ) 。 在 挑战 赛 期 间 ， 
会 隐藏 数据 集 的 标识 性 信息 及 相关 的 描述 信息 (除了 在 采样 数据 分 布 的 第 一 轮 或 第 一 个 
阶段 ，， 以 避免 参与 者 使 用 领域 知识 ， 并 促使 参与 者 设计 出 全 自动 的 机 器 学 习 方案 。 在 
自动 机 器 学 习 挑 战 赛 2015/2016 中 ， 数 据 集 被 引入 一 系列 的 轮 次 中 (10.4.3 节 ) ， 并 交 
PREF RME (BI Tweakathon 阶段 ， 和 无 须 人 工 干 预 的 代码 盲 测 阶段 ( 即 AutoML 
阶段 ) 。 在 开发 阶段 ， 可 以 提交 结果 或 者 代码 。 但 在 言 测 阶段 ， 代 码 必 须 被 提交 ， 因 为 
代码 是 AutoML“ 盲 测 ” 排 序 的 一 部 分 。 自 动机 器 学 习 挑战 赛 的 2018 版 本 对 协议 进行 了 
简化 ， 只 有 分 成 两 个 阶段 的 一 轮 竞 赛 ， 开发 阶段 ， 主 要 使 用 出 于 实践 目的 而 发 布 的 5 个 
数据 集 ; 盲 测 阶段 ， 使 用 以 前 未 被 使 用 过 的 5 个 新 数据 集 。 


10.4.1 时 间 预 算 和 计算 资源 


Codalab 平台 提供 了 可 被 所 有 参与 者 共享 的 计算 资源 。 在 挑战 赛 中 ， 使 用 了 多 达 10 
个 计算 工作 机 〈worker) 来 并 行 处 理 参 与 者 提交 方案 的 队列 ， 且 每 个 计算 工作 机 配 有 8 


(D 在 RL、PM、RH、RI 和 RM 数据 集中 ,实例 是 按照 时 间 顺 序 进行 排序 的 。 该 信息 对 参与 者 而 言 是 已 知 的 ， 
可 供 参 与 者 用 来 开发 他 们 自己 的 方法 。 
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个 x86_64 核 。 在 自动 机 器 学 习 挑 战 赛 2015/2016 的 第 3 轮 之 后 ， 内 存 将 从 24GB 提升 到 
56GB。 而 在 自动 机 器 学 习 挑战 赛 2018 中 ， 减 少 了 计算 资源 ， 因 为 希望 推动 参与 者 开发 
出 更 为 高 效 且 有 效 的 自动 机 器 学 习 方案 。 具 体 而 言 ， 使 用 6 个 计算 工作 机 并 行 处 理 提 交 
方案 的 队列 ， 且 每 个 计算 工作 机 配 有 2 个 x86_64 核 及 8GB 的 内 存 。 

为 了 保证 公平 性 ， 当 评估 某 个 提交 的 代码 时 ， 单 个 计算 工作 机 只 负责 处 理 一 个 ， 以 
及 运行 时 间 会 被 限定 为 给 定 的 时 间 预 算 〈 可 能 因数 据 集 而 异 ) 。 每 个 数据 集 的 信息 文件 
会 向 参与 者 提供 该 数据 集 的 时 间 预 算 。 出 于 实际 原因 ， 通 常会 将 每 个 数据 集 的 时 间 预 算 
设置 为 1 200s (第 一 轮 的 第 一 个 阶段 除外 ) 。 不 过 参与 者 事先 并 不 知道 这 一 点 ， 因 此 他 
们 的 代码 必须 能 管理 给 定 的 时 间 预 算 。 而 对 于 那些 直接 提交 结果 而 非 代码 的 参与 者 而 言 ， 
不 会 受到 时 间 预 算 的 限制 ， 因 为 他 们 的 代码 直接 运行 在 他 们 自己 的 平台 。 这 对 于 条 目 积 
分 能 够 进入 最 终 阶段 CRE Tweakathon 阶段 之 后 ) 可 能 是 有 利 的 。 而 对 于 那些 也 想 要 
进入 需要 提交 代码 的 AutoML 阶段 ( 盲 测 》 的 参与 者 而 言 ， 其 可 以 同时 提交 结果 和 代码 。 
结果 被 提交 后 ， 它 们 就 会 被 用 作 正 在 进行 阶段 的 条 目 得 分 。 实 际 中 ， 这 些 结果 不 需要 由 
提交 代码 来 产生 。 换 言 之 ， 如 果 参 与 者 不 想 共享 他 们 的 私人 代码 ， 则 他 们 可 以 提交 由 组 
织 者 提供 的 样 例 代 码 和 他 们 的 结果 。 这 些 代 码 将 会 被 自动 转发 到 AutoML 阶段 用 于 盲 测 。 
另外 ， 在 AutoML 阶段 ， 参 与 者 不 可 以 提交 结果 。 

鼓励 参与 者 保存 并 提交 中 间 结 果 ， 以 便于 画 出 解决 方案 的 学 习 曲 线 。 虽 然 这 些 中 间 
结果 在 挑战 赛 期 间 并 没有 被 利用 ， 但 研究 这 些 学 习 曲 线 有 助 于 评估 算法 的 能 力 ， 以 快速 
地 获得 好 的 性 能 。 


10.4.2 评分 标准 


得 分 计算 方式 为 对 所 提交 预测 与 参考 目标 值 进 行 比较 。 具 体 而 言 ， 针 对 每 个 样本 1 
(1=1:P， 其 中 忆 为 验证 集 或 测试 集 的 大 小 ) ， 对 于 回归 问题 ， 目 标 值 ;是 一 个 连续 型 
的 数值 系数 ， 对 于 二 值 分 类 问题 ， 目 标 值 是 {0,1} 内 的 一 个 二 元 值 ， 对 于 多 类 别 或 多 标 
签 分 类 问题 ， 目 标 值 是 一 个 {0,1} 内 的 二 元 值 向 量 [y,]〈 即 在 每 个 类 7 上 都 有 一 个 二 元 
值 ) 。 参 与 者 需要 提交 与 目标 值 尽 可 能 接近 的 预测 值 ， 即 针对 回归 问题 提交 连续 型 的 数 
值 系数 %， 针 对 多 类 别 或 多 标签 分 类 问题 提交 一 个 取 值 范围 在 [0,1] 之 间 的 数值 系数 向 
Ely] 〈 同 样 在 每 个 类 7 上 都 有 一 个 数值 系数 ) 。 
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主办 方 所 提供 的 入 门 工具 箱 含有 用 于 评估 条 目的 所 有 评分 指标 的 Python 实现 。 每 
个 数据 集 的 信息 文件 中 都 指定 了 与 其 对 应 的 评分 标准 。 需 要 注意 的 是 ， 所 有 的 得 分 会 进 
行 归 一 化 ， 这 样 可 以 使 得 最 佳 得 分 为 1， 而 基于 类 别 先 验 概率 的 随机 预测 的 得 分 期 望 值 
则 为 0。 另 外 ， 将 多 标签 分 类 问题 看 成 多 个 二 值 分 类 问题 ， 并 采用 多 个 二 值 分 类 子 问 题 
得 分 的 均值 来 对 多 标签 问题 进行 评估 。 

首先 ， 给 出 所 有 样本 已 〈 索 引 为 7) 上 均值 计算 符号 () 的 具体 定义 : 


G-U PE) (10.2) 


接 下 来 ， 给 出 具体 评分 指标 的 定义 。 
a 尺 ， 是 只 用 于 回归 问题 的 决定 系数 ， 该 指标 主要 基于 均 方 误差 ( MSE ) 和 方差 
( VAR ) ， 计 算 方式 为 
R=1- MSE/ VAR (10.3) 
h, MSE=((y,-9,))s VAR=((y,-m)')s T m=(y,)« 
= ABS ， 该 系数 与 RP EG, RET ABS 基于 平均 绝对 误差 (MAE) 和 平均 绝 
对 离 差 (MAD ) ， 计 算 方式 为 
ABS -1- MAE! MAD (10.4) 
3h, MAE -(abs(y,-q))): MAD- (abs( y,- m)) o 
BAC , 平衡 精度 是 分 类 问题 类 精度 的 均值 ， 是 二 值 分 类 问题 敏感 度 (HERR) 
和 特异 性 (Je f GR) 的 平均 值 ， 计 算 方 式 为 
| = 分 类 问 是 


i HR (10.5) 
TÈN. 分 类 问题 
Hp, PAN) 为 正 〈 负 ) 实例 的 数量 ; 7P(TN) 为 正确 分 类 的 正 〈 负 ) 实例 的 数量 ，C 
为 类 别 数量 ; TPHA ?中 正确 分 类 的 实例 数量 ; NARA 7 的 实例 数量 。 
对 于 二 值 分 类 问题 , 针对 每 个 类 ， 类 精度 为 在 q 阔 值 为 0.5 时 正确 类 别 预 测 的 比例 。 
对 于 多 标签 分 类 问题 ， 类 精度 为 所 有 类 精度 的 均值 。 对 于 多 类 别 分 类 问题 ， 在 计算 类 精 
度 之 前 , 需要 通过 选择 具有 最 大 预测 得 分 arg max, q, 的 类 对 所 有 预测 值 进行 二 值 化 处 理 。 
对 平衡 精度 进行 规范 化 处 理 ， 具 体 公式 如 下 : 
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|BAC| =(BAC- R)/ (1- R) (10.6) 

其 中 ， 有 为 随机 预测 上 BAC 的 期 望 值 ， 即 对 于 二 值 分 类 问题 ，R=0.5; 对 于 C 个 类 别 
的 分 类 问题 ，R=(1/C) 。 

= AUC, ， 该 值 为 ROC 曲线 下 的 面积 ， 主 要 用 于 排序 和 二 值 分 类 问题 。 其 中 ， 

ROC 曲线 为 在 不 同 预测 阅 值 下 敏感 度 的 曲线 。 对 于 二 值 预测 而 言 ， AUC 值 和 

BAC 值 相同 。 在 对 所 有 类 进行 平均 之 前 ,分别 单独 计算 每 个 类 的 AUC 值 。 该 指 


标的 规范 化 公式 如 下 : 
|AUC|=2AUC-1 (10.7) 
a 三 值 ， 该 值 为 精度 和 召回 率 的 调和 均值 ， 计 算 方 式 如 下 : 
互 =2x( 精 度 x 召回 率 )/( 精 度 + 召回 率 ) ， (10.8) 
精度 = 真正 例 /( 真 正 例 + 假 正 例 ) ， (10.9) 
召回 率 = 真 正 例 /( 真 正 例 + 假 负 例 ) (10.10) 


预测 阀 值 和 类 平均 与 BAC 中 的 处 理 方式 相似 。 接 下 来 ， 给 出 该 指标 的 规范 化 处 理 
AR: 
|R|=(Ę-R)/(1-R) (10.11) 
其 中 ， 有 为 随机 预测 上 FE (可 参考 BAC 的 处 理 方式 ) 。 
= PAC, ， 该 值 为 基于 交叉 (或 对 数 损 失 ) 的 概率 精度 ， 计 算 方式 如 下 : 
PAC - exp(-CE) , (10.12) 
average) log(q,), 对 于 多 类 别 分 类 


CE}—(y,log(q,)). (10.13) 
*((1- »;)log(1- 9)) 对 于 二 值 分 类 和 多 标签 分 类 


需要 注意 的 是 ， 在 多 标签 分 类 情形 下 ， 做 完 指 数 处 理 之 后 再 执行 类 平均 。 该 指标 的 
规范 化 处 理 公 式 如 下 : 


|PAC|=( PAC- R)/(1-R) (10.14) 
Rep, RAAT g= y, Beg, - (y,) 所 得 到 的 分 数 ， 即 使 用 正 类 样本 的 比例 作为 预测 
和 先 验 概率 的 估计 。 
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值得 说 明 的 是 ， 尼 、ABS WI PAC 指标 的 规范 化 都 使 用 了 平均 目标 值 g= y, R 
y=( 态 )。 与 之 相反 ，BAC、AUC 和 五 指标 的 规范 化 采用 的 是 一 类 具有 均匀 概率 分 布 
的 随机 预测 。 

如 前 所 述 ， 只 有 尼 和 ABS 指标 对 于 回归 问题 是 有 意义 的 。 但 为 了 评估 的 完整 性 ， 
即 能 够 将 其 他 指标 用 于 回归 问题 ， 首 先 在 中 值 处 对 目标 值 进行 阔 值 化 ， 随 后 将 阔 值 化 后 
的 目标 值 蔡 换 为 二 元 值 ( 即 0 或 1) ， 进 而 可 以 采用 其 他 指标 对 目标 值 被 处 理 后 的 回归 
问题 进行 评估 。 


10.4.3 挑战 赛 2015/2016 中 的 轮 次 和 阶段 


挑战 赛 2015/2016 含有 多 个 阶段 , 这些 阶段 被 分 成 6 个 轮 次 。 其 中 , 第 0 轮 (准备 轮 ) 
是 基于 若干 公开 可 用 数据 集 的 练习 阶段 ， 紧 随 其 后 的 是 难度 逐渐 增加 的 5 个 轮 次 〈 即 初 
级 轮 、 中 级 轮 、 高 级 轮 、 专 家 轮 和 大 师 轮 ) 。 除 了 第 0 轮 和 第 5 轮 ， 其 他 4 轮 都 包含 交 
HIT AutoML 竞赛 和 Tweakathon 竞赛 的 3 个 阶段 ， 如 表 10.4 所 示 。 


表 10.4 挑战 赛 2015/2016 中 第 n 轮 所 包含 的 阶段 


轮 次 由 中 阶段 | 目标 | 持续 时 间 | 提 z | 数据 | 得 分 | x | 


+AutoMLI | AENEA | 短 | 无 (代码 迁移 ，| 新 数据 集 不 | 测试 集结 果 | yes 
TFR 


E: 每 个 数据 集会 包含 一 个 用 于 训练 的 有 标签 数据 集 和 两 个 用 于 测试 的 无 标签 数据 集 〈 验 证 集 和 测 
试 集 ) 。 

由 表 10.4 可 知 ， 只 有 Tweakathon 阶段 可 以 进行 提交 。 最 新 提交 的 结果 将 会 出 现在 
排行 榜 上 ， 且 该 提交 会 被 自动 移 往 后 续 阶 段 。 基 于 此 方法 ， 在 挑战 赛 结束 之 前 就 放弃 的 
参与 者 的 代码 也 有 机 会 在 接 下 来 的 轮 次 和 阶段 中 被 测试 ， 而 新 参与 者 可 以 随时 加 入 比赛 
中 。 另 外 ， 奖 项 会 在 标 有 的 阶段 发 放 ， 且 该 阶段 是 没有 提交 的 。 需 要 注意 的 是 ， 若 想 要 
参与 到 阶段 AutoML[n]， 参 与 者 必须 在 阶段 Tweakathon[n-1] 提交 解决 方案 的 代码 。 

另外 ， 为 了 鼓励 参与 者 尝试 GPU 和 深度 学 习 ， 在 第 4 轮 中 ， 英 伟 达 公司 组 织 了 一 
个 GPU 相关 的 自动 机 器 学 习 任 务 。 
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为 了 参与 Final[n] 阶段 ， 参 与 者 需要 在 Tweakathon[n] 阶段 提交 代码 或 结果 。 如 
果 同 时 提交 代码 和 《和 良好 格式 的 ) 结果 ， 则 评分 会 直接 基于 所 提交 的 结果 ， 而 非 在 
Tweakathon[n] 阶段 和 Final[n] 阶段 重新 运行 所 提交 的 代码 。 只 有 当 结 果 不 可 用 或 者 格式 
不 够 规范 时 ， 才 会 执行 所 提交 的 代码 。 因 此 ， 同 时 提交 结果 和 代码 并 没有 什么 坏处 。 而 
如 果 一 个 参与 者 同时 提交 了 结果 和 代码 ， 则 其 便 可 以 使 用 不 同 的 方法 进入 Tweakathon/ 
Final 阶段 和 AutoML 阶段 。 需 要 注意 的 是 ， 只 能 在 Tweakathon 阶段 提交 结果 或 代码 ， 
且 每 天 最 多 只 能 提交 5 次 。 提 交 后 ， 排 行 榜 上 会 立即 给 出 提交 在 验证 数据 上 的 得 分 ， 而 
参与 者 的 排名 则 主要 基于 提交 方案 在 Final 阶段 和 AutoML 阶段 的 测试 性 能 。 

此 外 ， 挑 战 赛 提 供 了 基于 机 器 学 习 库 Scikit-learnls5 的 基线 软件 。 该 软件 主要 使 用 
了 集成 方法 ， 通 过 增加 更 多 的 基 学 习 器 能 够 随 着 时 间 改 进 软件 的 性 能 。 其 中 ， 除 了 基 学 
习 器 的 数量 之 外 ， 其 他 的 超 参 设置 都 使 用 了 默认 值 。 需 要 说 明 的 是 ， 参 与 者 无 须 使 用 
Python 语言 或 者 由 挑战 赛 组 织 者 所 提供 的 作为 示例 的 Python 脚本 。 不 过 ， 大 多 数 参与 
者 发 现 使 用 提供 的 Python 脚本 非常 方便 ， 因 为 这 些 脚本 对 稀疏 格式 、 随 时 学 习 设 置 和 评 
分 标准 做 了 很 好 的 管理 ， 这 也 使 得 很 多 参与 者 将 搜索 最 佳 模型 的 范围 限制 在 Scikit-learn 
库 中 。 基 于 此 可 以 发 现 ， 一 方面 提供 一 个 好 的 入 门 工 具 箱 非常 重要 ， 但 另 一 方面 也 存在 
将 结果 偏向 特定 解决 方案 的 风险 。 


10.4.4 挑战 赛 2018 中 的 阶段 


自动 机 器 学 习 挑 战 赛 2015/2016 持续 时 间 较 长 ， 只 有 很 少 的 队伍 参加 了 所 有 轮 次 的 
竞赛 。 此 外 ， 即 使 不 存在 参加 新 轮 次 竞赛 之 前 必须 参加 之 前 轮 次 竞赛 的 限制 ， 对 于 很 多 
潜在 的 新 参与 者 而 言 ， 他 们 仍 会 感觉 处 于 不 利 地 位 。 因 此 ， 每 年 组 织 一 次 自动 机 器 学 习 
挑战 赛 可 能 更 为 合适 ， 而 每 次 的 挑战 赛 都 应 有 其 自身 的 研讨 会 和 发 表 机 会 ， 因 为 这 样 可 
以 很 好 地 平衡 竞争 和 合作 。 

在 2018 年 ， 组 织 了 一 个 具有 两 个 阶段 的 单 轮 的 自动 机 器 学 习 挑 战 赛 。 在 该 简化 的 
挑战 赛 中 ， 参 与 者 可 以 在 第 一 个 阶段 〈 即 开发 阶段 ) 通过 提交 代码 或 结果 的 方式 在 5 个 
数据 集 上 进行 实践 。 当 所 提交 的 方案 可 用 时 ， 这 些 方案 的 表现 会 立即 出 现在 排行 榜 上 。 

开发 阶段 的 最 后 一 个 提交 行为 将 会 被 自动 转 到 第 二 个 阶段 ， 即 AutoML EWM E. 
在 该 阶段 中 (该 阶段 是 唯一 一 个 计算 奖项 的 阶段 )，Codalab 平台 会 在 5 个 数据 集 上 对 
参与 者 的 代码 进行 自动 评估 。 需 要 注意 的 是 ， 这 些 数据 集 对 于 用 户 而 言 是 未 知 的 。 因 此 ， 


第 10 章 “自动 机 器 学 习 挑战 赛 分 析 207 


对 于 那些 不 含有 能 够 进行 自动 训练 和 测试 的 代码 的 提交 行为 而 言 ， 参 与 者 不 会 在 最 终 阶 
段 进行 排名 ， 也 无 法 赢得 奖项 。 

自动 机 器 学 习 挑 战 赛 2018 提供 了 与 自动 机 器 学 习 挑 战 赛 2015/2016 相同 的 入 门 工具 
箱 。 除 此 之 外 ， 参 赛 者 也 可 以 直接 访问 之 前 挑战 赛 中 获胜 方案 的 代码 。 


10.5 结 & 


本 节 主 要 概述 两 次 挑战 赛 上 的 结果 , 解释 参与 者 所 使 用 的 方法 和 方法 中 的 创新 要 素 ， 
并 提供 赛 后 所 开展 的 实验 分 析 ， 以 回答 关于 模型 搜索 技术 有 效 性 的 具体 问题 。 


10.5.1 挑战 赛 2015/2016 上 的 得 分 


A 2014 Œ 12 H 08 H 8/2016 4E 05 A 01 H, 挑战 赛 2015/2016 持续 了 18 个 月 。 
在 挑战 赛 结 束 之 后 , 我 们 获得 了 实际 的 解决 方案 , 并 对 这 些 方案 (如 获胜 者 的 解决 方案 (29) 
进行 开源 。 

K 10.5 给 出 了 AutoML 阶段 CHI MGT EL) Al Final 阶段 〈 即 Tweakathon 阶段 结束 
之 后 ， 在 测试 集 上 对 方案 进行 一 次 测试 ) 测试 集 上 的 结果 。 通 过 给 最 先 提交 解决 方案 的 
参与 者 一 定 的 优先 级 ， 打 破 了 平局 。 需 要 说 明 的 是 ， 表 10.5 只 给 出 了 排名 靠 前 的 参与 者 
结果 。 


表 10.5 挑战 赛 2015/2016 获胜 方案 的 结果 


AutoML Final 
= 结束 时 间 | 获胜 者 | «Ro | <S> | 结束 时 间 | 获胜 者 | <R> <S> |UP(%) 
1. ideal 1.40 0.815 9 
0 NA NA NA NA 02/14/15 | 2. abhi 3.60 0.776 4 NA 
3. aad 4.00 0.771 4 
1. aad 2.80 0.640 1 1. aad 2.20 0.747 9 
1 02/15/15 | 2. jrl44 3.80 0.622 6 | 06/14/15 | 2. ideal 3.20 0.732 4 15 
3. tadej 4.20 0.645 6 3. amsl 4.60 0.715 8 
1. jrl44 1.80 0.432 0 1. ideal 2.00 0.5180 
2 06/15/15 | 2. aad 3.40 0.352 9 | 11/14/15 | 2. djaj 2.20 0.5142 35 
3. mat 4.40 0.344 9 3. aad 3.20 0.497 7 
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AutoML Final 
结束 时 间 | 获胜 者 | <R > | «S» | 结束 时 间 | 获胜 者 | < R> UP (96) 
1. aad 
11/15/15 |2. 2. djaj 
3. ideal 
1. aad 
02/20/16 | 2. djaj 5 E 05/1/16 | 2. ideal 


3. abhi 
ETE abhi 


05/1/16 


Laad | 160 [05282] 
05/1/16. |2. djaj 
3 pos | 460 | 0.4150 | 


E3 HH, (R) 表示 每 轮 所 有 5 个 数据 集 上 的 平均 排名 ， 并 被 用 于 对 参与 者 进行 排名 ; 而 (9 表示 


每 轮 所 有 5 个 数据 集 上 的 平均 得 分 ，UP 表示 相同 轮 中 ， 获 胜 者 在 AutoML 阶段 和 Final 阶段 上 平均 性 
能 之 间 性 能 上 的 提升 百分比 。 另 外 ， 第 4 轮 包含 GPU 任务 。 各 参赛 队 名 的 缩写 如 下 : aad_freiburg 一 一 
add; djajetic 一 一 djaj; marc.boulle—— marc; tadejs——tadej; abhishek4—— abhi; ideal.intel. 


analytics—— ideal; matthias.vonrohr— mat; lise_sun——lisheng; amsl.intel.com——asml; backstreet. 
bayes——jlr44; postech.mlg_exbrain——post; reference——ref. 


此 外 ， 图 10.3 (a) 展示 了 所 有 参与 者 排行 榜 上 性 能 的 比较 。 该 图 绘制 了 最 终 测 
试 集 和 验证 集 上 的 Tweakathon 性 能 对 比 ， 结 果 表 明 解 决 方案 没有 在 验证 集 上 出 现 明 
显 的 过 拟 合 ， 除 了 少数 的 几 个 异常 点 。 图 10.3 Cb) 展示 了 AutoML (HRW) 结果 和 
Tweakathon 最 终 测试 结果 (可 能 需要 手动 调整 〉 上 的 性 能 对 比 。 另 外 观察 到 ， 很 多 条 目 
是 在 阶段 1 (二 值 分 类 ) 完成 的 ， 而 随 着 任务 难度 的 增加 ， 参 与 者 人 数 逐 步 减少 。 由 于 
很 多 参与 者 在 Tweakathon 阶段 投入 了 大 量 的 精力 ， 所 以 Tweakathon 上 的 性 能 远 远 超过 
在 AutoML 上 的 性 能 (如 参与 者 djajetic 和 参与 者 aad_freiburg) o 

通过 表 10.5 和 图 10.3(b) 中 Tweakathon 和 AutoML( 盲 测 ) 结 果 之 间 的 显著 差异 可 知 ， 
这 里 仍然 存在 通过 手动 调整 或 额外 计算 资源 改进 解决 方案 性 能 的 空间 。 在 第 3 HOH, Gl 
入 了 稀疏 数据 集 ， 除 了 1 名 参与 者 外 ， 剩 下 的 所 有 参与 者 都 没 能 在 讶 测 期 间 提交 有 效 的 
解决 方案 。 幸 运 的 是 ， 参 与 者 做 了 调整 ， 并 在 挑战 赛 结束 时 ， 其 中 一 些 提 交 了 能 够 在 挑 
战 赛 的 所 有 数据 集 上 返回 有 效 的 解决 方案 。 但 是 学 习 模 式 仍 需要 被 优化 ， 因 为 即使 不 考 
KES 3 轮 ，AutoML 阶段 〈 即 具有 计算 约束 的 言 测 阶段 ) 和 Tweakathon 阶段 〈 即 人 为 干预 
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图 10.3 挑战 赛 2015/2016 上 所 有 参与 者 的 性 能 


EB: 这 里 展示 了 挑战 赛 2015/2016 所 有 阶段 的 所 有 参与 者 ， 在 所 有 数据 集 上 竞赛 排行 榜 中 最 后 一 个 条 
目的 结果 。 这 些 团队 用 不 同形 状 的 圆 形 符号 来 表示 ， 如 表 10.5 中 所 给 出 的 团队 。 

(a) 是 否 在 Tweakathon 上 出 现 过 拟 合 ? 该 子 图 给 出 了 最 终 测 试 集 上 的 性 能 和 验证 集 上 的 性 能 。 在 参 
与 者 调整 他 们 的 模型 时 ， 可 以 直接 在 排行 榜 上 看 到 模型 在 验证 集 上 的 性 能 ， 而 最 终 测试 集 上 的 性 能 只 
有 在 Tweakathon 阶段 结束 时 才 会 被 公布 。 除 了 少数 几 个 异常 点 ， 排 行 榜 上 大 多 数 参 与 者 的 模型 都 没有 
出 现 过 拟 合 。 

(b) AutoML 和 Tweakathon 之 间 的 差距 。 该 子 图 呈现 了 Tweakathon 和 AutoML 上 的 性 能 对 比 ， 以 可 
视 化 基于 手动 调整 模型 和 基于 Tweakathon 中 额外 可 用 计算 资源 所 带 来 的 性 能 改进 ， 而 图 中 对 角 线 上 的 
点 代表 的 就 是 这 种 改进 。 


和 拥有 额外 计算 能 力 的 阶段 ) 之 间 仍然 有 1596 ~ 35% 的 性 能 差距 。 而 第 4 轮 的 GPU f£ 
务 提供 了 一 个 可 用 于 尝试 深度 学 习 方 法 的 平台 。 它 可 以 支持 参与 者 证 明 ， 在 给 定额 外 计 
算 能 力 时 ,深度 学 习 方 法 相 比 于 基于 CPU 的 最 佳 方案 是 具备 竞争 力 的 .然而 , 从 结果 上 看 ， 
没有 一 个 深度 学 习 方 法 可 以 与 CPU 赛 道中 具有 有 限 计算 资源 和 时 间 预 算 的 最 佳 方案 相 
竞争 。 


10.5.2 挑战 赛 2018 上 的 得 分 


从 2017 年 11 月 30 日 至 2018 年 3 月 31 日， 挑战 赛 2018 持续 了 4 个 月 。 如 同 之 前 
的 挑战 赛 ， 挑 战 赛 2018 也 获得 了 较 有 价值 的 解决 方案 并 对 它们 进行 了 开源 。 表 10.6 展 
示 了 挑战 赛 2018 两 个 阶段 上 的 结果 。 需要 注意 的 是 , 该 挑战 赛 分 为 反馈 阶段 和 盲 测 阶段 ， 
并 给 出 每 个 阶段 上 获胜 方案 的 性 能 表现 。 
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表 10.6 挑战 赛 2018 获胜 方案 的 结果 
AutoML 阶段 反馈 阶段 
结束 时 间 获胜 者 <R> «S» | 结束 时 间 获胜 者 <R> <S> 
1. aad_freiburg aad_freiburg 9.0 


| 2. narnars0 narnarsÜ 4.40 | 0.7324 
03/31/18 |3. wIWangl 03/12/18 | wIWangl 440 | 0.8029 
|3. thanhdng thanhdng 140 | 0.6845 
Malik 13.8 
EX 其 中 ， 每 个 阶段 都 运行 在 5 个 不 同 数据 集 上 。 表 10.6 给 出 了 获胜 方案 在 AutoML 阶段 ( 即 盲 测 
阶段 ) 的 性 能 表现 ， 并 同时 给 出 了 它们 在 反馈 阶段 的 性 能 表现 以 作为 对 比 。 完 整 表格 参阅 链接 https:// 


competitions.codalab.org/competitions/17767 . 


由 表 10.6 可 知 ， 本 次 挑战 赛 中 获胜 解决 方案 的 表现 性 能 要 略微 低 于 之 前 挑战 赛 中 获 
胜 解 决 方案 的 表现 性 能 。 主 要 原因 在 于 任务 的 难度 〈 后 面 会 具体 介绍 ) ， 以 及 反馈 阶段 
的 5 个 数据 集 含 有 3 个 欺骗 性 数据 集 ( 即 与 之 前 挑战 赛 中 的 任务 相关 ， 但 与 盲 测 阶段 所 
使 用 的 数据 集 不 一 定 相似 ) 。 本 次 挑战 赛 之 所 以 采用 这 种 方式 ， 主 要 是 为 了 模拟 真实 的 
AutoML 设置 。 尽 管 任务 变 得 更 难 ， 但 仍 有 几 个 队伍 成 功 提供 了 比 随 机 方法 表现 更 好 的 
解决 方案 。 

本 次 挑战 赛 的 获胜 队伍 与 自动 机 器 学 习 挑 战 赛 2015/2016 的 获胜 队伍 一 样 〈 即 aad 
freiburgl23 团队 ) ， 并 且 本 次 挑战 赛 帮助 该 团队 逐步 改进 了 他 们 针对 之 前 挑战 赛 所 设计 
的 解决 方案 。 有 趣 的 是 ， 挑 战 赛 中 排名 第 二 的 解决 方案 与 获胜 解决 方案 的 核心 思想 较为 
一 致 。 另 外 ， 在 本 次 挑战 赛 中 ，3 支队 伍 并 列 第 3 名 ， 奖 品 由 这 3 支队 伍 平 分 。 在 获胜 
团队 中 ， 两 个 队伍 使 用 了 入 门 工 具 箱 ， 而 大 多 数 其 他 团队 要 么 使 用 了 入 门 工具 箱 ， 要 么 
使 用 了 2015/2016 挑战 赛 中 aad_freiburg 团队 的 开源 解决 方案 。 


10.5.3 数据 集 | 任务 的 难度 


本 节 对 数据 集 的 难度 或 者 说 是 任务 的 难度 进行 了 评估 ， 因 为 参与 者 需要 解决 给 定数 

据 集 、 给 定 评估 标准 和 计算 时 间 约 束 的 预测 性 问题 。 挑 战 赛 的 任务 涉及 不 同 程度 的 难度 ， 
不 过 这 些 难 度 在 挑战 赛 中 是 被 区 别 对 待 的 (如 表 10.2 和 表 10.3 所 示 ) 。 

n 类 别 型 变量 和 缺失 数据 。 在 挑战 赛 2015/2016 中 ， 很 少 有 数据 集 (ADULT, 

ALBERT 和 WALDO) 拥有 类 别 型 变量 ， 并 且 这 些 数 据 集 拥 有 的 类 别 型 变量 也 不 

是 很 多 。 与 之 类 似 ， 拥 有 缺失 数据 的 数据 集 (ADULT、ALBERT ) 也 非常 少 且 
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这 些 数 据 集 含有 的 缺失 数据 也 较 少 。 所 以 在 该 挑战 赛 中 ， 类 别 型 变量 和 缺失 数 
据 都 不 具 实 质 意义 上 的 难度 ， 尽 管 ALBERT 是 极 具 难 度 的 数据 集 之 一 ， 因 为 它 
是 较 大 的 数据 集 之 一 。 而 在 挑战 赛 2018 中 ， 这 一 情况 得 到 显著 改变 。 因 为 在 该 
挑战 赛 中 ，10 个 数据 集中 有 5 个 数据 集 包 含 类 别 型 变量 ( RL、PM、RI、RH 和 
RM) 和 缺失 值 (GINA、PM、RL、RI 和 RM ) 。 这 些 都 是 导致 大 多 数 方法 在 盲 
测 阶 段 性 能 较 差 的 主要 因素 。 

大 量 的 类 别 。 只 有 一 个 数据 集 含 有 大 量 的 类 别 ， 即 拥有 355 个 类 别 的 DIONIS HK 
据 集 。 该 数据 集 对 于 参与 者 而 言 难度 较 大 ， 尤 其 是 该 数据 集 同时 具有 规模 较 大 
和 类 别 不 平衡 等 特性 。 然 而 ， 拥 有 大 量 类 别 的 数据 集 在 挑战 赛 中 并 没有 得 到 很 
好 的 表示 。 值得 注意 的 是 ，HELENA 这 一 拥有 类 别 数量 第 二 多 ( FP 100 个 类 别 ) 
的 数据 集 ， 并 不 是 一 个 难度 特别 大 的 数据 集 。 不 过 ， 一 般 而 言 ， 多 类 别 分 类 问 
题 难 于 二 值 分 类 问题 。 

回归 。 挑 战 赛 中 只 有 4 个 用 于 回归 任务 的 数据 集 ， 即 CADATA、FLORA、 
YOLANDA 和 PABLO。 

ARIE, KH MEE A Ae Ah HAGE, FP DOROTHEA, FABERT, ALEXIS, 
WALLIS, GRIGORIS, EVITA, FLORA, TANIA, ARTURO 和 MARCO. 其 
中 几 个 数据 集 的 难度 比较 大 ， 尤 其 是 ALEXIS、WALLIS 和 GRIGORIS ， 因 为 它 
们 是 稀疏 格式 的 大 型 数据 集 ， 在 挑战 赛 2015/2016 的 第 3 轮 被 引入 时 会 导致 内 存 
问题 。 随 后 ， 挑 战 赛 组 织 方 提 升 了 服务 器 的 内 存量 ， 减 小 了 后 续 阶 段 引 入 类 似 
数据 集 时 所 带 来 的 困难 。 

大 型 数据 集 。 本 来 预计 特征 数量 入 和 训练 样本 数 忆 的 比例 可 以 特定 的 难度 ( 即 
该 比例 与 过 拟 合 风 险 存 在 一 定 的 关系 ) ， 但 现代 机 器 学 习 方 法 对 过 拟 合 具有 很 
强 的 鲁 棒 性 。 事 实 上 ， 主 要 的 难度 在 于 两 者 的 乘积 NR 。 大 多 数 参 与 者 试图 将 整 
个 数据 集 都 加 载 到 内 存 中 ， 并 将 稀疏 矩 阵 转换 为 完整 矩阵 ， 而 这 会 花费 大 量 的 
时 间 ， 并 随后 导致 性 能 损失 或 程序 失败 等 问题 。 NP. > 20.10° 的 大 型 数据 集 主 要 
有 ALBERT, ALEXIS, DIONIS, GRIGORIS, WALLIS, EVITA, FLORA, 
TANIA, MARCO, GINA, GUILLERMO, PM, RH, RI, RICCARDO # 
RM, AYP MABLHAERATHARHRABHRERERRAWZ, de 
挑战 赛 2018 中 ， 最 后 阶段 的 所 有 数据 集 都 超过 了 该 阅 值 ， 这 也 是 为 何 若干 团 
队 的 代码 没 能 在 时 间 预 算 内 成 功 执 行 的 原因 。 实 际 上 ， 只 有 数据 集 ALBERT 和 
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DIONIS 能 被 称 为 是 “真正 意义 上 的 ”大 数据 集 ， 因 为 它们 的 特征 数量 较 少 ， 但 
拥有 400 000 以 上 的 训练 样本 。 

a 探 针 的 存在 。 有 2/3 的 数据 集 ( 即 ADULT、CADAIA、DIGITS、DOROTHEA、 
CHRISTINE、JASMINE、MADELINE、PHILIPPINE、SYLVINE、ALBERT、 
DILBERT、FABERT、JANNIS、EVITA、FLORA、YOLANDA、ARTURO、 
CARLO、PABLO、WALDO ) 存在 一 定 比例 的 干扰 特征 或 不 相关 变量 ( 又 称 之 
为 探 针 ) ， 而 探 针 主要 通过 随机 变更 真实 特征 值 而 实现 。 探 针 的 存在 ， 可 以 在 
一 定 程度 上 降低 公共 领域 数据 集 的 可 辨识 性 。 

m 评估 指标 类 型 。 挑 战 赛 主 要 使 用 了 6 个 不 同 的 评估 指标 ， 如 10.4.2 节 所 示 。 而 
使 用 这 些 指 标的 任务 分 布 并 不 均匀 ,其 中 BAC (11)、AUC (6) , AG) 
PAC (6) 用 于 分 类 任务 ，R, (2) de ABS (2) 用 于 回归 任务 。 主 要 原因 在 于 不 
是 所 有 的 指标 都 适合 所 有 类 型 的 应 用 。 

- 时 间 预 算 。 尽 管 在 第 0 轮 中 ， 尝 试 了 为 不 同 数据 集 给 出 不 同 的 时 间 预 算 ， 但 最 
后 为 剩 下 所 有 轮 中 的 所 有 数据 集 都 分 配 了 相同 的 时 间 预 算 (Pp 12005) 。 毫 无 疑 
问 ， 数 据 集 的 规模 不 同 会 给 大 型 数据 集 带 来 更 多 的 约束 。 

m 类 别 不 平衡 。 这 在 挑战 赛 2015/2016 的 数据 集中 并 不 是 一 个 困难 ， 但 是 在 2018 
版 本 中 ， 极 端的 类 别 不 平衡 是 挑战 赛 的 主要 困难 。 具 体 而 言 ， 在 数据 集 RL、 
PM, RH, RI 和 RM 中 ， 类 别 不 平衡 比例 小 于 或 等 于 10， 而 在 2018 挑战 赛 的 
数据 集中 ， 类 别 不 平衡 比例 达到 极端 的 1-1000。 这 也 是 为 何在 挑战 赛 2018 中 ， 参 
赛 团队 解决 方案 的 性 能 低 于 之 前 挑战 赛 的 原因 。 

图 10.4 给 出 了 挑战 赛 2015/2016 PAGER / 任务 难度 的 第 一 个 视图 ， 它 以 示意 图 的 方 
式 刻画 了 AutoML 阶段 和 Tweakathon 阶段 所 有 轮 次 测试 数据 上 参与 者 解决 方案 的 性 能 分 
布 。 由 图 10.4 可 知 , 所 有 数据 集 的 性 能 中 位 数 在 AutoML 和 Tweakathon 之 间 都 得 到 了 改进 ， 
与 预期 较为 一 致 。 相 应 地 ， 性 能 上 的 平均 跨度 〈 四 分 位 数 ) 降低 了 。 接 下 来 ， 对 AutoML 
阶段 进行 仔细 分 析 : 在 第 3 轮 中 《该 轮 引 入 了 稀 朴 矩阵 和 规模 更 大 的 数据 集 ) ， 很 多 方法 
在 盲 测 阶段 都 失败 了 @。 相 比 于 第 1 轮 (二 值 分 类 ) ， 第 2 轮 〈 多 类 别 分 类 ) 似乎 也 引入 
了 明显 更 高 的 难度 。 第 4 轮 引 入 了 两 个 回归 问题 ( 即 FLORA 和 YOLANDA) ， 但 是 与 多 
类 别 分 类 问题 相 比 ， 并 没有 发 现 回归 问题 具有 显著 的 难度 差异 。 而 第 5 轮 并 没有 引入 什么 
新 的 特性 。 可 以 观察 到 ， 在 第 3 轮 之 后 ， 数 据 集 的 中 位 数值 分 布 在 整体 中 位 数 周围 。 接 下 


(D 第 0 轮 提供 了 稀疏 数据 集 示例 ， 不 过 这 些 数据 集 的 规模 较 小 。 
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来 观察 Tweakathon 阶段 的 相应 得 分 ， 可 以 发 现 ,一 旦 参与 者 从 初始 的 不 适应 中 恢复 过 来 ， 
第 3 轮 对 于 他 们 而 言 也 不 是 特别 困难 。 实 际 上 ， 第 2 轮 和 第 4 轮 相 对 而 言 更 加 困难 一 些 。 


i 


ETT WT 
(a) AutoML 测 试 集 (b) Tweakathon 测 试 集 
10.4 挑战 赛 2015/2016 数据 集 上 的 性 能 分 布 ( 小 提琴 图 ) 


AutoML Tweakathon 
& 1.0 


e 
[3 


AutoML 排行 榜 得 分 
e 
- 


Tweakathon 阶 段 之 后 的 最 终 得 


E3: 图 中 给 出 了 AutoML 和 Tweakathon 阶段 结束 时 各 个 数据 集 上 参与 者 解决 方案 在 排行 榜 上 的 性 能 得 
分 。 其 中 ， 水 平 刻度 表示 中 位 数 和 四 分 位 数 ， 垂 直 的 灰色 阴影 区 域 表示 分 布 轮廓 〈 由 核 方 法 所 拟 合 ) 

和 它 的 镜像 , 水 平实 线 及 其 左 侧 相应 垂直 实 线 区 间 表示 所 有 数据 集 上 的 中 位 数 性 能 和 对 应 的 四 分 位 数 。 

(a) AutoML (HWD 。 最 初 的 5 个 数据 集 主 要 用 于 开发 目的 ， 不 会 用 于 AutoML 阶段 的 盲 测 。 在 第 
3 轮 中 ， 很 多 参与 者 的 代码 由 于 计算 资源 限制 而 失败 。 (b) Tweakathon 〈 手 动 调整 ) 。 最 后 5 个 数据 
集 只 用 于 最 终 的 盲 测 ， 不 会 在 这 5 个 数据 集 上 对 解决 方案 进行 微调 。 由 于 增加 了 计算 能 力 和 内 存 ， 第 
3 轮 任务 已 不 再 特别 困难 。 


对 于 挑战 赛 2018 中 所 使 用 的 数据 集 ， 任 务 的 难度 明显 相关 于 极端 的 类 别 不 平衡 、 
较 多 的 类 别 型 变量 和 NR 上 的 高 维特 性 。 然 而 ， 对 于 挑战 赛 2015/2016 中 的 数据 集 ， 除 
了 数据 集 规 模 之 外 ， 通 常 很 难 知道 是 什么 使 任务 变 得 简单 或 容易 ， 这 就 需要 参与 者 关注 
硬件 能 力 ， 并 促使 他 们 提高 所 设计 方法 的 计算 效率 。 另 外 ， 二 值 分 类 问题 (和 多 标签 分 
类 问题 ) 本 质 上 比 多 类 别 分 类 问题 “更 为 容易 ”， 因 为 这 两 个 问题 “猜测 ”成 功 的 可 能 
性 更 高 。 这 也 部 分 解释 了 为 何 第 1 轮 和 第 3 轮 具 有 更 高 的 中 位 数 性 能 ， 因 为 这 两 轮 主 要 
关注 于 二 值 分 类 问题 和 多 标签 分 类 问题 。 而 对 于 其 他 类 型 的 困难 ， 数 据 集 的 数量 并 不 足 
以 支撑 得 出 其 他 结论 。 

不 过 ， 本 书 作者 仍 试图 找到 能 够 刻画 整体 难度 的 概括 统计 量 。 假 设 数据 是 由 如 下 类 
型 的 独立 同 分 布 采样 “过程 所 生成 的 : 


© ”独立 同 分 布 采样 。 
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y= F(x.noise) 

其 中 ，y 为 目标 值 ，x 为 输入 特征 向 量 ; FARR: moise 为 一 些 来 自 于 未 知 分 布 的 随机 
噪声 。 随 后 ， 学 习 问 题 的 难度 可 以 被 分 成 以 下 两 个 方面 。 

COD 内 在 难度 ， 与 噪声 的 多 少 或 信 噪 比 有 关 。 给 定数 量 无 限 的 数据 和 一 个 能 够 识 
3) FOAL, BUTERA ZORA, MM P= FP. 

(2) 建 模 难度 , STB ERRATE, ARAE AR BH ASR BO E EE 
以 及 可 能 大 量 的 待 估计 参数 和 超 参 有 关 。 

估计 内 在 难度 是 不 可 行 的 ， 除 非 F 已 知 ， 而 的 最 佳 近似 为 获胜 者 所 提出 的 解决 方 
案 。 因 此 ， 使 用 获胜 解决 方案 的 性 能 作为 最 佳 可 取得 性 能 的 估计 量 。 需 要 注意 的 是 ， 该 
估计 量 同 样 可 能 存在 偏差 和 方差 : 存在 偏差 ， 因 为 获胜 方案 可 能 在 训练 数据 上 欠 拟 合 ; 
存在 方差 ， 因 为 测试 数据 的 数量 有 限 。 而 在 实际 中 ， 欠 拟 合 很 难 测试 ， 其 表现 可 能 是 预 
测 值 的 方差 或 炉 值 小 于 目标 值 的 方差 或 粹 值 。 

评估 建 模 难度 同样 是 不 可 能 的 ， 除 非 函数 已 和 模型 类 型 已 知 。 由 于 缺乏 模型 类 型 的 
知识 ， 数 据 科 学 家 通常 会 使 用 与 数据 生成 过 程 无 关 的 通用 性 预测 模型 。 这 些 模型 的 范围 
从 高 度 有 偏 于 预测 的 “简洁 性 ”和 平滑 性 的 基本 模型 〈 如 正则 化 线性 模型 ) 到 能 够 在 给 
定 足够 数据 时 学 习 出 任何 函数 的 高 度 通 用 的 无 偏 模型 (如 决策 树 的 集成 ) 。 为 了 间接 评 
估 建 模 难度 ， 诉 诸 使 用 挑战 赛 中 获胜 解决 方案 与 参照 方法 之 间 的 性 能 差异 ， 参 照 方法 如 
F: @ 4 个 “未 调整 ”的 基础 模型 OLEI Scikit-learn Æ 59 中 基于 默认 超 参 的 经 典 技术 ) 
中 的 最 佳 模型 ，@ 选 择 性 朴素 贝 叶 斯 (SNB) "2 101 (一 个 能 够 提供 非常 鲁 棒 且 简单 对 比 
方法 的 偏向 于 简洁 的 高 度 正 则 化 模型 ) 。 

图 10.5 和 图 10.6 展示 了 本 章 作者 对 挑战 赛 2015/2016 中 数据 集 内 在 难度 和 建 模 难 度 
的 估计 。 由 图 可 知 , 第 0 轮 数据 集 的 难度 是 最 低 的 (数据 集 NEWSGROUP 除外 ) 。 实际 上 ， 
这 些 (众所周知 的 ) 数据 集 的 规模 相对 较 小 。 令 人 意外 的 是 , 第 3 轮 的 数据 集 也 十 分 简单 ， 
尽管 很 多 参与 者 的 代码 未 能 在 该 轮 成 功 运行 。 很 大 原因 是 内 存 的 限制 ， 因 为 Scikit-learn 
算法 并 没有 针对 稀 下 数 据 做 优化 ， 且 无 法 将 转化 为 稠密 矩阵 的 数据 矩阵 放 入 内 存 。 其 中 ， 
两 个 数据 集 (MADELINE、DILBERT) 具有 较 小 的 内 在 难度 ， 但 具有 较 大 的 建 模 难度 。 
具体 而 言 ， MADELINE 是 一 个 十 分 非 线 性 的 人 工 数据 集 ( 簇 或 2 个 类 别 ， 位 于 5 维 空 
间 超 立方 体 的 顶点 上 ) ， 因 此 对 于 朴素 贝 叶 斯 而 言 难度 较 大 。DILBERT 是 一 个 图 像 识 
别 数 据 集 ， 包 含 了 在 各 种 位 置 方向 上 旋转 的 物体 的 图 像 ， 因 此 对 于 朴素 贝 叶 斯 而 言 也 十 
分 具有 挑战 。 另 外 , 与 建 模 难度 相 比 , 最 后 两 个 阶段 上 的 数据 集 似 乎 具有 较 大 的 内 在 难度 。 
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但 是 这 不 一 定 是 真实 情况 ， 因 为 这 些 数据 集 对 于 机 器 学 习 社 区 而 言 是 全 新 的 ， 并 且 获 胜 
解决 方案 的 性 能 有 可 能 远 低 于 可 达到 的 最 佳 性 能 。 

此 外 ， 本 章 作者 尝试 使 用 随机 森林 分 类 器 ， 根 据 aad_freiburg 团队 用 于 元 学 习 的 元 
特征 集合 (OpenML 的 一 部 分 ) 来 预测 内 在 难度 〈 基 于 获胜 方案 的 性 能 来 衡量 ) ， 并 
基于 重要 性 对 元 特征 进行 排序 〈 大 多 数 由 随机 森林 选择 ) 。 元 特征 的 详细 列表 请 参阅 在 
线 附录 ， 这 里 给 出 能 够 对 数据 集 难度 进行 预测 的 3 个 最 佳 元 特征 〈 如 图 10.7 所 示 ) 。 

LandmarkDecisionTree: 决策 树 分 类 器 的 性 能 。 

= LandmarkINN: 最 近邻 分 类 器 的 性 能 。 

m SkewnessMin: 所 有 特征 偏 度 上 的 最 小 值 ， 而 偏 度 主要 用 来 度量 分 布 的 对 称 性 。 

其 中 ， 正 偏 度 值 表示 该 分 布 为 右 偏 。 


1.0 


国 辐 最 佳 基线 方法 = 建 模 难度 
[六 最 大 基线 方法 = 内 在 难度 


0.8 


0.6 


得 分 


0.4 


0.2 


0.0 


图 10.5 挑战 赛 2015/2016 中 的 任务 难度 


EI 评估 任务 难度 的 指标 主要 有 两 个 :内 在 难度 ， 基 于 获胜 解决 方案 的 性 能 而 定 ， 建 模 难 度 ， 基 于 获 
胜 方案 与 对 比方 案 〈 这 里 采用 选择 性 朴素 贝 叶 斯 方法 ) 之 间 的 性 能 差异 而 定 。 最 好 的 任务 应 具备 相对 
较 低 的 内 在 难度 和 相对 较 高 的 建 模 难 度 ， 以 便于 很 好 地 区 分 参与 者 。 
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(b) AutoML/Tweakathon 之 间 差异 
10.6 ” 建 模 难 度 与 内 在 难度 


图 : 对 于 挑战 赛 2015/2016 的 AutoML 阶段 ,该 图 展示 了 数据 集 上 建 模 难度 与 内 在 难度 (排行 榜 最 高 得 分 ) 


(a) 建 模 难度 主要 基于 最 佳 未 调 模型 (KNN、 朴 素 贝 叶 斯 、 随 机 森林 和 线性 SGD) 的 
Cb) 建 模 难 度 主要 基于 选择 性 朴素 贝 叶 斯 (SNB) 模型 的 得 分 来 估计 。 所 有 情况 下 ， 得 


分 越 高 越 好 ， 且 所 有 负 分 /NaN 分 值 都 用 0 来 代替 。 其 中 ， 水 平分 割 线 和 垂直 分 割 线 表示 中 位 数 。 右 下 
象限 表示 具有 较 低 内 在 难度 和 较 高 建 模 难度 的 数据 集 ， 而 这 些 是 用 于 基准 测试 的 最 佳 数据 集 。 


0.10 4 


基于 随机 森林 的 重要 性 
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e 
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数据 集 比 例 


PCA 偏 度 的 第 一 主 成 分 
数据 集 比例 的 对 数 


具有 缺失 值 的 特征 数量 下 


mm 正 相关 
负 相 关 


类 别 型 特征 的 数量 
符号 总 数 

有 具有 缺失 值 的 实例 占 比 
符号 均值 
符号 最 大 值 

标 称 到 数值 的 比例 
数值 到 标 称 的 比例 
具有 缺失 值 特征 的 占 比 


图 10.7 最 能 预测 数据 集 ( 挑战 赛 2015/2016 的 数据 ) 内 在 难度 的 元 特征 


ER 其 中 ， 元 特征 的 基尼 重要 性 主要 基于 随机 森林 回归 器 计算 而 得 ， 训 练 后 可 通过 使 用 数据 集 的 元 特 
征 来 预测 最 高 的 参与 者 排行 榜 得 分 。 另 外 ， 这 些 元 特征 的 具体 描述 可 参阅 文献 [25] 补充 材料 中 的 表 1。 
图 中 的 正 相关 和 负 相 关 的 具体 值 为 元 特征 和 得 分 中 位 数 之 间 的 皮尔 逊 相关 性 。 
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10.5.4” 超 参 优化 


很 多 参与 者 使 用 了 Scikit-learn 包 ， 包 括 获胜 的 团队 aad_freiburg， 该 团队 开发 了 
Auto-sklearn 软件 。 本 文 作者 使 用 Auto-sklearn API 开展 了 一 个 对 超 参 优化 有 效 性 进行 
系统 性 分 析 的 赛 后 研究 。 具 体 而 言 ， 针 对 4 种 “代表 性 的 ”基础 方法 KNN, K ER: 
NB， 朴 素 贝 叶 斯 ，RE， 随 机 森林 ; SGD-linear， 训 练 于 随机 梯度 下 降 的 线性 模型 @) ， 
对 它们 基于 Scikit-learn 中 默认 超 参 设 置 所 获得 的 性 能 和 采用 Auto-sklearn 对 超 参 进行 优 
化 后 所 获得 的 性 能 进行 了 对 比 @。 需 要 注意 的 是 ， 两 者 都 采用 了 类 似 于 挑战 赛 中 所 引入 
的 时 间 预 算 限 制 。 图 10.8 展示 了 相应 的 实验 结果 。 由 图 10.8 可 知 ， 超 参 优化 通常 能 够 
提升 性 能 ， 但 并 不 总 是 如 此 。 事 实 上 ， 超 参 调 优 的 优势 主要 来 自 于 其 能 够 将 优化 指标 切 
换 到 任务 所 要 求 的 指标 的 灵活 性 ， 以 及 能 够 在 给 定 当前 数据 集 和 指标 的 前 提 下 找到 工作 
良好 的 超 参 。 但 是 ， 在 部 分 情况 下 ， 由 于 数据 集 的 规模 问题 ， 无 法 在 时 间 预 算 内 运行 完 
超 参 优化 ， 即 得 分 会 不 大 于 0。 因此， 在 给 定 严格 时 间 约 束 和 大 型 数据 时 ， 如 何 执行 彻 
底 的 超 参 优 化 仍 有 待 解 决 〈《 如 图 10.8 所 示 ) 。 

此 外 ， 对 基于 不 同 评分 标准 所 获得 的 性 能 进行 对 比 ， 如 图 10.9 所 示 。 其 中 ， 基 础 方 
法 没有 提供 待 优化 指标 的 选项 ， 但 Auto-sklearn 可 以 对 挑战 赛 任务 的 指标 进行 后 拟 合 。 
因此 ， 当 使 用 “通用 指标 ” (BACHE) 时 ， 没 有 针对 BAC/ 屁 进行 优化 的 挑战 赛 获 
胜 方法 ， 通 常 不 会 优 于 基础 方法 。 与 之 相反 ， 当 使 用 挑战 赛 的 指标 时 ， 基 础 方法 和 获胜 
方案 之 间 通 常会 存在 明显 的 差异 ， 但 并 不 总 是 如 此 。 举 例 而 言 ，RF-auto 通常 能 展现 出 
相当 优异 的 性 能 ， 甚 至 在 有 的 时 候 能 够 超过 获胜 方案 的 性 能 。 


10.5.5 元 学 习 


另外 一 个 值得 探讨 的 问题 是 元 学 习 是 否 可 行 针 ， 即 根据 一 个 给 定 的 分 类 器 在 其 他 数 
据 集 上 的 过 往 表 现 ， 学 习 预 测 它 能 否 在 未 来 数据 集 上 表现 良好 (无 须 进行 实际 的 训练 〉。 
本 节 研 究 了 能 否 根 据 Auto-sklearn 的 元 学 习 特征 〈 参 阅 在 线 附录 ) 来 预测 哪个 基础 模型 
将 会 表现 最 好 。 需 要 注意 的 是 ， 这 里 移 除了 元 特征 集合 中 刻画 基础 预测 器 性 能 〈 尽 管 性 
能 很 差 ， 且 有 较 多 的 缺失 值 ) 的 “标记 点 (Landmark) ”类 特征 ， 因 为 它们 会 导致 某 种 
程度 的 “数据 泄露 ”。 主 要 使 用 了 以 下 4 种 基础 预测 器 。 


O 对 于 这 些 实验 ， 将 SGD 的 损失 设置 为 “对 数 ”。 
Q) 使 用 sklearn 0.16.1 和 Auto-sklearn 0.4.0， 以 对 挑战 赛 环境 进行 模拟 。 
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10.8 ESR ( 挑战 赛 2015/2016 数据 ) 


F3: 对 基于 默认 超 参 所 获得 的 性 能 和 使 用 Auto-sklearn 对 超 参 进行 调 优 后 所 获得 的 性 能 进行 对 比 。 需 
要 注意 的 是 ， 两 者 都 使 用 了 挑战 赛 中 所 给 定 的 相同 的 时 间 预 算 ， 而 对 于 那些 无 法 在 给 定 的 时 间 预 算 内 
返回 结果 的 预测 器 的 性 能 都 将 直接 以 0 来 代 蔡 。 另 外 ， 返 回 一 个 随机 水 准 的 预测 也 将 会 被 置 为 0 分 。 


00 2. 
Hippie 


(a) 


b) 


图 10.9 指标 对 比 ( 挑战 赛 2015/2016 ) 


ER 对 于 所 有 分 类 问题 使 用 归 一 化 的 平衡 精度 ， 对 于 所 有 回归 问题 使 用 尼 指标 。 基 于 这 两 幅 图 的 综合 
比较 可 知 ， 获 胜 方案 在 大 多 数 情况 下 取得 了 最 佳 性 能 ， 与 评分 指标 无 关 。 另 外 ， 没 有 一 种 基础 方法 可 
以 支配 其 他 所 有 方法 。 虽 然 RF-auto( 基 于 超 参 优化 的 随机 森林 ) 方法 十 分 强大 ， 但 有 时 也 会 被 其 他 方 
法 超越 。 当 使 用 通用 指标 时 简单 的 线性 模型 SGD-def 部 分 时 候 会 胜出 ， 但 是 在 挑战 赛 指 标 上 获胜 方案 
的 性 能 会 更 好 。 总 结 而 言 ， 该 图 证 明 获胜 方案 的 技术 是 有 效 的 。 
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= NB ( 梓 素 贝 叶 斯 ) 

m SGD-linear (训练 于 随机 梯度 下 降 的 线性 模型 ) 

= KNN (天 最 近邻 模型 ) 

m RF (随机 森林 ) 

本 节 使 用 了 Scikit-learn 库 中 带 有 默认 超 参 设置 的 实现 。 图 10.10 首先 展示 了 两 个 线 
性 判别 分 析 (LDA) 组 件 空间 上 的 性 能 ， 即 训练 能 够 预测 哪个 基础 分 类 器 将 会 表现 最 好 
的 元 特征 上 的 LDA 分 类 器 。 由 图 10.10 可 知 ， 这 些 方 法 被 分 为 3 个 不 同 的 簇 ， 其 中 一 
个 对 可 分 离 性 较 差 的 非 线 性 方法 (KNN, RF) 进行 分 组 ， 剩 下 两 个 分 别 为 NB 和 linear- 
SGD. 

由 图 10.10 可 知 ， 最 具 预 测 力 的 特征 都 与 “类 概率 ”和 “缺失 值 百 分 比 ” 有 关 ， 表 
明 类 别 不 平衡 、 类 别 数 量 大 在 多 类 别 分 类 问题 中 ) 和 缺失 值 百分比 可 能 是 非常 重要 的 。 
但 是 , 当 对 训练 数据 进行 重 采样 时 , 最 佳 特 征 的 排名 是 不 稳定 的 , 表明 存在 过 拟 合 的 可 能 。 


10.5.6 ”挑战 赛 中 使 用 的 方法 


在 线 附 录 提 供 了 两 次 挑战 赛 中 所 用 方法 的 简要 介绍 ， 并 同时 给 出 了 赛 后 针对 这 些 方 
法 所 做 的 系统 性 研究 结果 。 根 据 10.2 节 的 概述 和 之 前 小 节 中 的 结果 ， 一 个 自然 而 然 的 问 
题 是 ， 是 否 存在 一 种 解决 AutoML 问题 的 支配 性 方法 ， 以 及 是 否 存在 某 种 特定 的 技术 解 
决 方案 被 广泛 采用 。 本 节 将 所 有 待考 虑 的 模型 集合 称 为 “模型 空间 ”， 将 用 于 构建 超 模 
型 〈 即 多 个 模型 的 集成 ) 的 模型 库 中 的 成 员 称 为 “基础 模型 ”又 称 “简单 模型 ”“ 单 
个 模型 ”或 “ 基 学 习 器 ”) 。 

1. 集成 : 处 理 过 拟 合 和 随时 学 习 

集成 是 AutoML 挑战 赛 系 列 中 使 用 得 最 为 广泛 的 方法 ， 其 中 超过 8096 的 参与 者 和 所 
有 排名 靠 前 的 参与 者 都 使 用 了 集成 方法 。 虽 然 在 几 年 之 前 过 拟 合 问题 依然 是 模型 选择 和 
超 参 优化 中 的 最 大 问题 ， 但 到 今天 ， 该 问题 似乎 已 经 通过 使 用 集成 技术 在 较 大 程度 上 得 
以 避免 。 在 挑战 赛 2015/2016 中 ， 将 训练 样本 的 数量 和 变量 数量 之 间 的 比例 ( RV/N) 
改变 了 若干 个 数量 级 。 其 中 ，5 个 数据 集 (DOROTHEA、NEWSGROUP、GRIGORIS、 
WALLIS 和 FLORA) $b R / WNW 值 小 于 1， 而 满足 这 个 比例 的 数据 集 特别 容易 出 现 过 拟 合 。 
尽管 有 /NW 是 最 能 预测 参与 者 中 位 数 性 能 的 变量 ， 但 并 没有 迹象 表明 比例 号 /N<1 的 数 
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LDA-mf 空 间 中 的 数据 集训 练 得 分 : 0.966 67 
mm ix uot 


712:5--10)0- 77,5: 730 -25 $0.0 25 50 7.5 
LDA1 


(a) 


通过 LDA 所 得 的 部 分 元 特征 的 重要 性 


LDA 特 征 比例 因子 


Ll le 


(b) 
10.10 ”线性 判别 分 析 


Ex (a) 数据 集 在 主轴 上 的 散 点 图 。 使 用 元 特征 (不 包括 标记 点 ) 和 4 个 基础 模型 (NB, SGD- 
linear, KNN, RF) FF RIZK HERRI yX LDA 模型 进行 训练 , 而 基础 模型 的 性 能 主要 基于 通用 指标 评估 而 得 。 
另外 ， 采 用 默认 超 参 对 模型 进行 训练 。 在 前 两 个 LDA 组 件 的 空间 中 ， 每 个 点 表示 一 个 数据 集 。 其 中 ， 

颜色 表示 获胜 的 基础 模型 ， 透 明度 反映 相应 获胜 模型 的 得 分 〈 越 不 透明 ， 得 分 越 高 ) 。 

(b) 元 特征 重要 性 ， 计 算 方 式 为 每 个 LDA 组 件 的 比例 因数 。 
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据 集 对 于 参与 者 而 言 显得 特别 困难 (如 图 10.5 所 示 ) 。 除 此 之 外 ， 预 测 器 的 集成 还 有 一 
个 额外 的 好 处 ， 即 能 够 以 逐步 增 大 预测 器 集成 这 种 简单 方式 来 解决 “随时 学 习 ” 问 题 ， 
进而 可 以 随 着 时 间 的 推移 提升 解决 方案 的 性 能 。 通 常 ， 会 将 所 有 训练 后 的 预测 器 组 合 到 
集成 中 。 举 例 而 言 ， 假 如 使 用 了 交叉 验证 ， 会 直接 对 所 有 折 又 上 的 预测 器 进行 集成 ， 进 
而 能 够 节省 重新 训练 所 选 最 佳 超 参 上 单个 模型 的 计算 时 间 ， 并 可 能 生成 更 为 健壮 的 解决 
方案 (尽管 有 可 能 存在 因为 样本 量 更 小 ， 导 致 偏差 更 大 的 问题 》。 这 些 方法 中 较为 不 同 
的 地 方 在 于 如 何 根据 不 同 预测 器 的 贡献 来 赋 权 。 有 些 方法 会 为 所 有 预测 器 设置 相同 的 权 
重 ， 如 像 随机 森林 一 类 的 装 袋 方法 和 根据 模型 空间 中 预测 器 后 验 概率 来 采样 预测 器 的 由 
叶 斯 方法 。 而 有 些 方法 会 直接 将 预测 器 权重 的 评估 作为 学 习 的 一 部 分 ， 如 提升 方法 。 文 
献 [16] 提出 了 一 种 简单 且 有 效 的 能 够 创建 异 质 模型 集成 的 方法 。 该 方法 在 过 去 的 若干 次 
挑战 赛 中 得 以 成 功 应 用 (如 文献 [52])， 由 aad_freiburg 团队 所 实现 ， 而 该 团队 是 两 次 
挑战 赛 中 表现 都 较为 突出 的 参与 团队 之 一 中 。 该 方法 包括 在 所 有 训练 好 的 模型 上 进行 若 
干 次 循环 , 并且 在 每 轮 循环 中 加 入 最 能 提升 集成 性 能 的 模型 .而 模型 会 以 权重 1 进行 投票 ， 
但 它们 可 以 合并 多 次 ， 这 在 实际 层面 上 增加 了 它们 的 权重 。 假 如 保存 了 交叉 验证 的 预测 
值 ， 该 方法 将 支持 十 分 快速 地 重新 计算 模型 的 权重 。 此 外 ， 该 方法 可 以 通过 将 集成 的 预 
测 后 拟 合 到 需要 的 指标 挑战 赛 中 的 重要 因素 之 一 ) 来 优化 任意 指标 上 的 集成 。 


2. 模型 评估 : 交叉 验证 或 简单 验证 


对 模型 的 预测 性 精度 进行 评估 是 任何 集成 方法 中 模型 选择 的 关键 且 必 需 的 组 件 。 通 
过 在 所 有 训练 数据 上 对 基础 模型 进行 单 次 训练 (有 可 能 会 带 来 些许 额外 的 计算 量 ) ， 随 
后 计算 训练 好 的 基础 模型 的 预测 性 精度 ， 作 为 模型 选择 标准 。 不 过 这 些 选择 标准 〈 如 性 
能 范围 ) 根本 没有 被 使 用 ， 如 同 之 前 所 组 织 的 挑战 赛 中 那样 I。 实际 任务 中 ， 交 叉 验 
证 被 广泛 使 用 ， 尤 其 是 KK 折 交 叉 验证 。 不 过 ， 基 础 模型 经 常 只 在 一 个 折 又 数据 上 进行 
评估 ， 以 支持 快速 地 丢弃 模型 空间 中 不 具 前 景 的 区 域 。 目 前 ， 该 技术 被 使 用 得 越 来 越 频 
繁 ， 因 为 其 能 够 有 效 加 速 搜索 过 程 。 另 一 种 搜索 加 速 策略 是 在 训练 样本 的 子 集 上 进行 训 
练 ， 并 对 学 习 曲 线 进行 监控 。 举 例 而 言 ，“ 冻 一 融 ” 策 略 的 会 停止 那些 在 学 习 曲 线 上 
看 起 来 不 具 潜 力 的 模型 ， 但 是 有 可 能 会 在 后 续 的 某 个 时 间 点 重新 对 这 些 模型 进行 训练 。 
在 2015/2016 挑战 赛 中 ， 较 多 团队 使 用 了 该 策略 〈 如 文献 [48] ) 。 


3. 模型 空间 : 同 质 与 异 质 
一 个 未 解决 的 问题 是 应 该 搜索 大 的 模型 空间 还 是 小 的 模型 空间 ， 而 其 中 的 挑战 在 于 
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无 法 对 该 问题 做 出 明确 的 回答 。 大 多 数 参与 者 会 选择 搜索 相对 较 大 的 模型 空间 ， 包 含 
Scikit-learn 库 中 的 各 种 模型 。 不 过 ， 其 中 一 个 表现 较 好 的 团队 英特尔 团队 〉 所 提交 的 
结果 仅仅 采用 了 提升 决策 树 方法 〈 即 由 一 组 同 质 的 弱 学 习 器 / 基础 模型 所 组 成 ) 。 显然， 
当 学 习 方 法 是 一 个 在 训练 数据 充足 的 情况 下 能 够 对 任何 事物 进行 学 习 的 通用 近似 方法 
时 ， 只 使 用 一 种 机 器 学 习 方 法 是 足够 的 。 而 包含 多 个 机 器 学 习 方法 的 原因 是 考虑 到 收敛 
的 速度 ， 即 学 习 曲 线 上 的 探索 速度 。 包 含 更 为 强健 的 基础 模型 ， 是 提高 学 习 曲 线 探索 速 
度 的 一 种 方式 。 另 外 ， 赛 后 的 实验 分 析 〈 见 图 10.9) 表明 随机 森林 《〈 同 质 基础 模型 一 一 
决策 树 的 集成 ) 的 Scikit-learn 版 本 通常 差 于 获胜 者 的 版 本 ， 暗 示 了 英特尔 团队 的 解决 方 
R (同样 基于 决策 树 的 集成 ) 含有 大 量 的 专 有 知识 ， 而 这 些 专 有 知识 没 能 被 决策 树 的 基 
础 集成 (如 随机 森林 ) 所 捕捉 。 期 待 未 来 能 够 有 更 多 关于 这 方面 的 更 加 有 原则 的 研究 工作 。 


4. 搜索 策略 : 过 滤器 、 包 装 器 和 媒 入 方法 


随 着 像 Scikit-learn〈 人 入 门 工 具 包 的 基础 ) 这 类 强大 的 机 器 学 习 工具 包 变 得 可 用 ， 用 
户 更 倾向 于 实现 全 包装 器 方法 来 求解 CASH (或 “全 模型 选择 ”) 问题 。 事 实 上 ， 大 多 
数 参与 者 是 这 么 做 的 。 尽 管 已 经 发 布 了 一 些 采 用 嵌入 方法 来 对 几 个 基础 分 类 器 进行 超 参 
优化 的 方法 中， 但 这 些 方法 的 每 一 个 都 需要 更 改 基 础 方法 的 实现 。 相 比 于 使 用 这 些 基 础 
方法 经 过 调试 和 优化 过 的 版 本 ， 更 改 基础 方法 一 方面 会 较为 耗 时 ， 另 一 方面 又 易 引 入 错 
误 。 因此， 实践 者 不 倾向 于 在 嵌入 方法 的 实现 上 投入 开发 时 间 。 一 个 值得 注意 的 例外 是 
marc.boulle 软件 ， 该 软件 提供 了 一 个 基于 朴素 贝 叶 斯 的 自 包含 的 超 参 免费 解决 方案 ， 其 
中 包括 变量 的 重 编码 〈 分 组 或 离散 化 ) 和 变量 选择 。 具 体内 容 请 参阅 在 线 附 录 。 


5. 多 层级 优化 

另 一 个 值得 关注 的 问题 是 ， 为 了 计算 效率 或 避免 过 拟 合 ， 是 否 应 该 考虑 超 参 的 多 个 
层级 。 举 例 而 言 ， 在 贝 叶 斯 设置 中 ， 考 虑 参数 / 超 参 的 层次 化 和 先 验 / 超 先 验 的 若干 个 
层级 是 十 分 可 行 的 。 不 过 ， 出 于 实际 计算 的 考虑 ， 在 自动 机 器 学 习 挑战 赛 中 ， 参 与 者 使 
用 了 超 参 空间 的 浅 层 组 织 及 尽 可 能 避免 嵌 套 的 交叉 验证 循环 。 

6. 时 间 管 理 : 利用 与 探索 平衡 

在 严格 的 时 间 预 算 下 ， 必 须 采取 有 效 的 搜索 策略 来 保证 探索 /利用 的 平衡 。 为 
了 对 策略 进行 比较 ， 在 线 附录 给 出 了 两 个 表现 较为 突出 但 所 用 策略 完全 不 同 的 团队 
(Abhishek 和 aad_freiburg) 各 自 的 学 习 曲 线 。 其 中 ，Abhishek 团队 使 用 基于 人 类 先 
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验 知识 的 启发 式 方法 ， 而 aad_freiburg 团队 首先 使 用 元 学 习 预 测 出 的 最 佳 模型 对 搜索 
进行 初始 化 ， 随 后 执行 超 参 的 贝 叶 斯 优化 。 看 上 去 ，Abhishek 团队 通常 会 以 更 好 的 解 
决 方案 开始 搜索 ,但 探索 效率 较 低 。 与 之 相反 ，aad_freiburg 团队 方案 搜索 的 起 点 较 低 ， 
但 往往 能 以 更 好 的 解决 方案 结束 搜索 。 另 外 ， 搜 索 中 的 一 些 随机 性 因素 也 有 助 于 找到 
更 好 的 解决 方案 。 


7. 预 处 理 和 特征 筛选 


数据 集 的 一 些 内 在 困难 可 以 在 一 定 程度 上 被 预 处 理 或 算法 的 特殊 修改 来 解决 : 稀疏 、 
缺失 值 、 类 别 型 变量 和 不 相关 变量 。 然 而 ， 就 算是 在 性 能 表现 最 好 的 参与 者 中 ， 预 处 理 
似乎 也 不 是 关注 的 焦点 。 他 们 直接 采用 入 门 工具 箱 所 提供 的 简单 的 启发 式 方法 : 以 中 位 
数 代替 缺失 值 、 添 加 缺失 值 指示 变量 ， 以 及 对 类 别 型 变量 进行 独 热 编码 。 另 外 ， 也 会 使 
用 简单 的 归 一 化 方法 。 需 要 注意 的 是 ，2/3 的 参与 者 会 直接 忽略 不 相关 变量 ， 并 且 表现 
最 好 的 参与 者 没有 进行 特征 筛选 。 看 上 去 ， 含 有 集成 的 方法 对 于 不 相关 变量 具有 天 然 的 
健壮 性 。 更 多 关于 这 方面 的 详细 信息 ， 请 参阅 在 线 附 录 。 


8. 无 监督 学 习 
尽管 在 深度 学 习 社区 的 影响 下 ， 无 监督 学 习 再 一 次 引起 了 大 家 的 兴趣 ， 但 在 自动 机 


器 学 习 挑战 赛 系列 中 ， 除 了 使 用 经 典 的 空间 降 维 技术 (如 ICA 和 PCA) 之 外 ， 无 监督 
学 习 并 没有 得 到 广泛 使 用 。 更 多 细节 请 参阅 在 线 附录 。 

9. 迁移 学 习 和 元 学 习 

据 我 们 所 知 ， 只 有 aad_freiburg 团队 使 用 了 元 学 习 来 初始 化 他 们 的 超 参 搜索 。 为 此 ， 
他 们 使 用 了 OpenML 中 的 数据 集 2。 而 挑战 赛 中 所 发 布 的 数据 集 数 量 和 任务 的 多 样 性 难 
以 支撑 参与 者 运行 有 效 的 迁移 学 习 或 元 学 习 。 

10. 深度 学 习 

除了 GPU 赛 道上 的 任务 之 外 ，AutoML 阶段 的 可 用 计算 资源 类 型 排除 了 深度 学 习 的 
使 用 。 不 过 ， 即 使 在 GPU 赛 道中 ， 深 度 学 习 方法 也 并 没有 取得 最 好 的 表现 性 能 。 但 有 
一 个 例外 是 aad_freiburg 团队 ， 该 团队 在 第 3 轮 和 第 4 轮 的 Tweakathon 阶段 使 用 了 深度 
学 习 ， 并 发 现 深度 学 习 在 数据 集 ALEXIS, TANIA 和 YOLANDA 上 是 有 帮助 的 。 


(D) https://www.openml.org/ + 
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11. 任务 和 指标 优化 


挑战 赛 中 总 共有 4 种 类 型 的 任务 〈 即 回归 、 二 值 分 类 、 多 类 别 分 类 和 多 标签 分 类 ) 
和 6 iE RHE CR’. ABS. BAC, AUC, F AIPAC) 。 此 外 ， 类 别 平衡 和 类 别 数量 
因 分 类 问题 不 同 而 存在 较 大 差异 。 挑 战 赛 中 ， 参 与 者 投入 了 适当 的 精力 来 设计 特定 指标 
的 优化 方法 。 此 外 ， 也 使 用 了 一 般 性 的 方法 ， 并 通过 交叉 验证 或 集成 方法 将 输出 拟 合 到 
目标 指标 。 


12. 工程 化 


AutoML 挑战 赛 系列 的 一 个 重要 教训 是 大 多 数 方法 没 能 在 所 有 任务 上 返回 结果 (这 
里 指 的 不 仅仅 是 “好 的 ”结果 , 而 是 “任何 ”合理 的 结果 ) ， 失 败 的 原因 包含 “超时 ”“ 超 
内 存 ” 或 其 他 原因 (如 数值 不 稳定 ) 。 基 于 挑战 赛 的 结果 可 知 ， 距 离 可 以 在 所 有 数据 集 
上 运行 的 “基础 模型 ”还 有 很 长 的 路 要 走 。 而 Auto-sklearn 的 一 个 显著 优势 是 能 够 忽略 
那些 运行 失败 的 模型 ， 并 且 通 常 可 以 找到 至 少 一 个 能 够 返回 结果 的 模型 。 

13. 并 行 化 

现 有 大 多 数 计算 机 拥有 多 个 核 ， 所 以 原则 上 ， 参 与 者 可 以 使 用 并 行 化 机 制 。 一 种 常 
用 的 策略 是 仅 凭借 能 够 在 内 部 自动 使 用 这 种 并 行 化 机 制 的 数值 库 。 其 中 ，aad_freiburg 


团队 使 用 不 同 的 核 来 启动 针对 不 同 数据 集 的 模型 并 行 化 搜索 ， 因 为 每 轮 含有 5 个 数据 集 。 
另外 ,在 学 习 曲 线 中 ， 可 以 直接 看 到 计算 资源 的 不 同 使 用 情况 (具体 内 容 见 在 线 附 录 ) 。 


10.6 讨 论 


本 节 对 自动 机 器 学 习 挑战 赛 系列 中 的 主要 问题 和 主要 发 现 进行 简要 概述 和 总 结 。 

(1) 所 提供 的 时 间 预 算 对 于 完成 挑战 赛 中 的 任务 是 否 足够 。 在 在 线 附录 中 ， 绘 制 
了 作为 aad_freiburg 团队 获胜 方案 (Auto-sklearn) 时 间 函 数 的 学 习 曲 线 。 该 学 习 曲 线 揭 
示 了 对 于 大 部 分 数据 集 而 言 ， 在 组 织 者 所 规定 的 时 间 限 制 之 外 ， 解 决 方案 的 性 能 仍 能 够 
得 到 很 好 的 提升 。 尽 管 在 大 约 一 半 的 数据 集 上 ， 改 进 的 幅度 并 不 大 不 超过 规定 时 间 限 
制 结束 时 所 获 分 数 的 20%) ， 但 对 于 大 部 分 数据 集 而 言 ， 改 进 的 幅度 非常 明显 (超过 原 
始 得 分 的 2 倍 )。 一 般 而 言 ， 性 能 的 提升 是 渐进 式 的， 但 也 会 出 现 性 能 突然 提升 的 情况 。 
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举例 而 言 ， 对 于 数据 集 WALLIS， 在 时 间 达 到 挑战 赛 规定 时 间 限 制 的 3 倍 时 ， 得 分 突然 
翻 了 一 倍 。 又 如 同 Auto-sklearn & e 的 作者 所 指出 的 ， 该 方案 在 起 始 时 性 能 提升 较为 缓 
慢 ， 但 在 长 时 运行 中 能 够 取得 与 最 佳 方法 相 接近 的 性 能 表现 。 

(2) 对 参与 者 而 言 ， 是 否 存在 一 些 任务 明显 难于 其 他 的 任务 。 从 参与 者 得 分 的 平 
均值 (中 位 数 ) 和 变异 系数 〈 第 三 个 四 分 位 数 ) 的 分 散 性 来 看 ， 任 务 难度 所 涉及 的 范 
围 十 分 广泛 ， 反 映 了 部 分 任务 明显 难于 其 他 任务 。 举 例 而 言 ，MADELINE 这 一 涵盖 
非 线性 任务 的 合成 数据 集 对 很 多 参与 者 而 言 就 非常 难 。 其 他 导致 无 法 给 出 解决 方案 的 
困难 包括 较 大 的 内 存 需 求 〈 特 别 是 那些 试图 将 稀疏 矩阵 转化 为 全 矩阵 的 方法 ) ， 以 及 
较 短 的 时 间 预 算 〈 尤 其 是 那些 拥有 大 量 训练 样本 / 特征 或 者 拥有 较 多 类 别 / 标签 的 数 
据 集 ) 。 

(3) 是 否 有 数据 集 和 方法 的 元 特征 能 够 为 特定 类 型 数据 集 推荐 特定 类 型 方法 提供 
有 用 的 参考 。 其 中 ，aad_freiburg 团队 使 用 了 53 个 元 特征 〈 由 挑战 赛 数据 集 所 提供 的 简 
单 统计 的 超 集 ) 的 子 集 来 衡量 数据 集 之 间 的 相似 度 。 这 将 支持 他 们 执行 更 加 高 效 的 超 参 
搜索 方法 , 即将 搜索 的 设置 初始 化 为 那些 之 前 处 理 过 的 相似 数据 集 的 完全 相同 的 设置 (元 
学 习 的 一 种 ) 。 基 于 实验 分 析 发 现 ， 通 过 元 特征 来 推测 预测 器 的 性 能 十 分 困难 ， 但 可 以 
相对 准确 地 预测 哪个 “基础 模型 ”将 会 表现 最 好 。 通 过 LDA 方法 ， 可 以 可 视 化 数据 集 
在 两 个 维度 上 的 重组 情况 ， 并 清晰 地 展示 数据 集 在 朴素 贝 叶 斯 、 线 性 SGD、KNN 和 随 
机 森林 方法 上 “偏好 ”的 分 离 情况 。 不 过 ， 该 方面 值得 进一步 的 调查 研究 。 

(4) 与 使 用 默认 值 相 比 ， 超 参 优化 是 否 切实 地 改进 了 模型 性 能 。 对 比试 验 表 明 ， 
在 4 个 基础 预测 模型 (K 近邻、 随机 森林 、 线 性 SCD 和 朴素 贝 叶 斯 )》 上， 对 超 参 进行 
优化 而 非 选择 默认 值 通常 是 有 益 的 。 大 多 数 〈 并 非 所 有 ) 情况 下 ， 相 比 于 默认 值 ， 超 
参 优 化 Chyper-opt) 能 带 来 更 好 的 表现 性 能 。 不 过 由 于 时 间或 内 存 的 限制 ， 部 分 时 候 
hyper-opt 会 出 现 失 败 ， 但 从 另 一 个 角度 而 言 ， 这 也 带 来 了 可 以 提升 的 空间 。 

(5) 相对 而 言 ， 能 够 较为 容易 地 比较 获胜 者 解决 方案 与 Scikit-learn 模型 之 间 的 效 
果 。 举 例 而 言 ， 参 数 经 过 优化 的 基础 模型 的 结果 通常 不 如 运行 Auto-sklearn 的 结果 好 。 
不 过 ， 需 要 注意 的 是 ， 具 有 默认 超 参 的 基础 模型 有 时 也 会 超过 被 Auto-sklearn 调 优 过 的 
相同 模型 。 
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10.7 总 结 


本 章 重 点 分 析 了 自动 机 器 学 习 挑战 赛 中 若干 轮 的 竞赛 结果 。 

第 一 届 自 动机 器 学 习 挑 战 赛 2015/2016 的 设计 在 多 个 方面 都 是 令 人 较为 满意 的 ， 尤 
其 是 吸引 了 大 量 的 参与 者 (超过 600 AO ， 获 得 了 有 统计 意义 的 结果 ， 并 提高 了 自动 机 
器 学 习 的 水 准 。 此 外 ， 该 挑战 赛 也 带 来 了 众多 开源 可 用 的 库 ， 如 Auto-sklearn. 

特别 地 ， 挑 战 赛 组 织 者 设计 了 一 个 拥有 众多 不 同 数据 集 的 基准 测试 ， 其 中 含有 大 量 
且 充 足 的 能 够 对 优秀 参与 者 进行 区 分 的 测试 集 。 事 实 上 ， 很 难 预测 实际 任务 中 所 需 测试 
集 的 规模 和 大 小 ， 因 为 错误 范围 依赖 于 参与 者 所 能 取得 的 表现 性 能 ， 幸 运 的 是 挑战 赛 组 
织 者 做 出 了 合理 的 猜测 。 看 上 去 , 简单 的 经 验 法 则 “ N=50/ E" GEP 人 为 测试 样 例 数量 ， 
已 为 最 小 类 的 错误 率 ) 具有 非常 广泛 的 适用 性 。 此 外 ， 需 要 确保 数据 集 既 不 能 过 于 困难 ， 
也 不 能 过 于 简单 ， 这 对 于 区 分 参与 者 是 非常 重要 的 。 为 了 对 数据 集 的 难度 进行 量化 ， 本 
章 引 入 了 “内 在 难度 ”和 “ 建 模 难度 ”两 个 概念 。 具 体 而 言 ， 内 在 难度 基于 最 佳 方法 的 
性 能 来 量化 ， 即 将 最 佳 方法 的 性 能 当 作 可 达到 的 最 佳 性 能 的 蔡 代 〈 即 分 类 问题 的 贝 叶 斯 
率 ) ， 而 建 模 难度 则 主要 基于 方法 之 间 的 性 能 差异 来 量化 。 其 中 ， 最 好 的 数据 集 应 具有 
相对 较 低 的 “内 在 难度 ”和 相对 较 高 的 “ 建 模 难 度 ”。 不 过 ， 第 一 次 自动 机 器 学 习 挑战 
赛 2015/2016 中 30 个 数据 集 上 的 多 样 性 既是 一 个 特点 又 是 一 个 灾难 : 一 方面 ， 它 支持 在 
广泛 的 应 用 领域 中 对 软件 的 健壮 性 进行 测试 ; 但 另 一 方面 , 它 又 使 得 元 学 习 非 常 困难 ( 即 
使 不 是 一 点 可 能 都 没有 ) 。 因 此 ， 如 果 要 探索 元 学 习 技 术 ， 就 需要 使 用 外 部 的 元 学 习 数 
据 。 而 这 正 是 aad_freiburg 团队 所 采用 的 策略 ， 即 在 元 训练 中 使 用 OpenML 数据 。 此 外 ， 
挑战 赛 组 织 者 为 不 同 的 数据 集 赋予 了 不 同 的 评分 标准 。 这 一 方面 使 得 任务 变 得 更 加 真实 
和 困难 , 另 一 方面 也 使 得 元 学 习 变 得 更 为 困难 。 而 在 第 二 次 自动 机 器 学 习 挑战 赛 2018 H, 
挑战 赛 组 织 者 减少 了 数据 集 的 多 样 性 ， 并 使 用 了 单一 的 评分 标准 。 

关于 任务 设计 ， 细 节 至 关 重 要 。 挑 战 赛 参与 者 精确 地 解决 了 所 提出 的 任务 ， 但 也 使 
得 他 们 的 解决 方案 可 能 难以 适用 到 看 上 去 较为 相似 的 场景 。 在 自动 机 器 学 习 挑战 赛 中 ， 
组 织 者 仔细 考虑 了 挑战 赛 的 度量 指标 理应 在 学 习 曲 线 下 的 区 域 还 是 学 习 曲 线 上 的 一 个 点 
(经 过 固定 最 大 计算 时 间 后 所 获得 的 性 能 ) 。 出 于 实际 原因 ， 最 终 选 择 了 第 二 个 方案 。 
挑战 赛 结束 之 后 ， 对 部 分 参与 者 的 学 习 曲 线 进行 了 检查 ， 很 显然 ， 这 两 个 问题 是 非常 不 
同 的 ， 尤 其 是 关于 权衡 “探索 ”与 “利用 ”的 策略 。 这 促使 我 们 思考 “固定 时 间 ” 的 学 
习 《〈 即 参与 者 提前 知道 时 间 限 制 ， 以 及 只 有 在 该 时 间 结束 之 前 交付 的 解决 方案 才 会 被 评 


第 10 章 自动 机 器 学 习 挑战 赛 分 析 227 


fr) 与 “随时 学 习 ”〔 参 与 者 会 在 任意 时 间 点 被 要 求 停止 及 返回 相应 的 解决 方案 ) 之 间 
的 差异 。 而 这 两 个 场景 都 是 有 用 的 : 当 模 型 需要 被 快速 地 持续 交付 时 如 市 场 应 用 )〉， 
第 一 种 学 习 方 法 较为 实用 ;， 当 环境 中 计算 资源 不 可 靠 或 可 能 会 出 现 意外 的 中 断 〈 如 用 户 
在 不 可 靠 的 连接 上 进行 远程 工作 ) 时 ， 第 二 种 学 习 方法 较为 实用 。 这 些 观 察 和 思考 会 在 
一 定 程度 上 影响 后 续 挑战 赛 的 设计 。 

关于 迁移 学 习 ， 其 在 两 次 自动 机 器 学 习 挑战 赛 上 的 难度 存在 差异 。 在 挑战 赛 
2015/2016 中 ， 第 0 轮 涵盖 了 所 有 的 数据 和 困难 类 型 〈 即 目标 类 型 、 数 据 稀 朴 与 否 、 数 
据 缺 失 与 否 、 是 否 是 类 别 型 变量 ， 以 及 样本 数量 是 否 多 于 特征 数量 ) 的 示例 。 随 后 ， 难 
度 逐 轮 进行 增加 。 另 外 ， 第 0 轮 的 数据 集 相 对 而 言 较为 简单 。 随 后 ， 在 每 一 轮 中 ， 参 与 
者 的 代码 都 在 比 前 一 轮 难 一 个 等 级 的 数据 集 上 进行 言 测 。 因 此 ， 迁 移 是 非常 困难 的 。 而 
在 挑战 赛 2018 中 ， 总 共 只 有 两 个 阶段 ， 每 个 阶段 都 拥有 5 个 相似 难度 的 数据 集 ， 并 且 
第 一 个 阶段 上 的 每 个 数据 集 都 分 别 对 应 一 个 相似 任务 上 的 数据 集 。 所 以 在 挑战 赛 2018 中 ， 
迁移 相对 而 言 变 得 简单 。 

关于 入 门 工 具 包 和 对 比方 法 ， 除 了 如 英特尔 和 Orange 之 类 的 企业 界 参与 者 〈 这 些 
参与 者 更 倾向 于 使 用 公司 的 “内 部 ”工具 包 ) 外 ， 挑 战 赛 组 织 者 所 提供 的 代码 最 终 成 为 
大 多 数 参与 者 解决 方案 的 基础 。 因 此 ， 需 要 质疑 所 提供 的 软件 是 否 使 得 所 获得 的 方法 有 
偏差 。 事实 上 ， 所 有 参与 者 都 使 用 了 某 种 形式 的 集成 学 习 ， 类 似 于 入 门 工具 箱 中 所 采用 
的 策略 。 虽 然 可 以 认为 这 是 解决 该 问题 的 一 个 “自然 ”策略 ， 但 是 一 般 而 言 ， 向 参与 者 
提供 足够 的 入 门 材料 而 不 会 让 挑战 赛 偏向 某 个 特定 的 方向 仍 是 一 个 十 分 棘手 的 问题 。 

从 挑战 赛 协议 设计 的 角度 来 看 ， 想 让 团队 保持 长 时 间 的 专注 和 经 历 多 个 挑战 赛 阶段 
是 非常 困难 的 。 在 整个 AutoML 挑战 赛 期 间 ， 赛 事 吸 引 了 大 量 的 参与 者 (超过 600 名 ) 。 
该 挑战 赛 持 续 了 一 年 多 (2015/2016) ， 并 被 若干 活动 (如 黑客 松 ) 打 断 。 不 过 ， 基 于 
第 一 次 挑战 赛 之 后 ， 本 文 作者 更 倾向 于 建议 按 年 组 织 自动 机 器 学 习 挑 战 赛 ， 并 在 期 间 穿 
插 一 些 研讨 会 。 这 能 更 好 地 平衡 竞争 和 合作 ， 因 为 研讨 会 提供 了 一 个 交流 观点 的 平台 ， 
而 且 参 与 者 通过 科学 出 版 系统 所 获得 的 认可 能 够 给 他 们 带 来 自然 的 奖励 。 作 为 该 推测 的 
一 个 验证 ， 只 持续 了 4 个 月 的 第 二 次 自动 机 器 学 习 挑 战 赛 (2017/2018〉 就 吸引 了 差不多 
300 名 参与 者 。 

挑战 赛 设计 的 一 个 重要 创新 是 代码 提交 。 让 参与 者 的 代码 在 相同 的 平台 且 类 似 严格 
的 条 件 下 运行 是 朝 着 公平 和 可 重复 性 迈 出 的 一 大 步 ， 同 时 从 计算 的 角度 而 言 ， 这 能 够 确 
保 解决 方案 的 可 行 性 。 此 外 ， 若 获胜 者 想 要 赢得 他 们 的 奖项 ， 则 需要 以 开放 源 代码 许可 


228 自动 机 器 学 习 ( AutoML ) : 方法 、 系 统 与 挑战 


证 的 形式 发 布 他 们 的 代码 。 基 于 这 种 方式 ， 能 够 很 好 地 获得 一 些 作为 挑战 赛 “ 产 品 ” 的 
软件 出 版 物 。 第 二 次 挑战 赛 中 (AutoML 2018) 采用 了 Docker 技术 。 分 发 Docker 镜像 
可 以 使 得 任何 人 都 能 够 下 载 参与 者 的 代码 ， 进 而 可 以 更 为 容易 地 复 现 结果 ， 不 会 再 遇 到 
因 计 算 环境 和 计算 库 不 一 致 而 导致 的 安装 问题 。 不 过 计算 机 硬件 仍 有 可 能 存在 差异 ， 而 
且 在 赛 后 评估 中 发 现 ， 更 改 计算 机 可 能 会 产生 结果 上 的 显著 差异 。 和 希望 随 着 可 负担 得 起 
的 云 计算 的 普及 ， 这 将 不 再 是 一 个 问题 。 

自动 机 器 学 习 挑战 赛 系 列 只 是 开始 ， 本 章 作者 目前 正在 研究 一 些 新 的 能 够 推动 自动 
机 器 学 习 领 域 发 展 的 方法 ， 如 目前 正在 准备 的 NIPS 2018 终身 机 器 学 习 挑战 赛 。 在 该 挑 
战 赛 中 ， 参 与 者 会 接触 到 分 布 随 着 时 间 缓 慢 变化 的 数据 。 此 外 ， 本 章 作者 也 正在 关注 自 
动机 器 学 习 的 一 个 挑战 ， 即 相似 领域 的 迁移 学 习 问 题 。 


@ 国 微软 公司 对 本 次 挑战 赛 的 组 织 提供 了 支持 ， 并 捐赠 了 比赛 的 奖品 和 Azure 上 的 云 
计算 时 间 。 该 项 目 还 通过 LabeX 阿 基 米 德 计划 获得 了 法 国 艾 克 斯 马赛 大 学 信息 基础 实 
验 室 的 额外 支持 ， 并 同时 得 到 法 国 巴 黎 南 部 大 学 的 信息 学 实验 室 、 作 为 TIMCO 项 目 一 
部 分 的 INRIA-Saclay 中 心 及 巴黎 - 萨 克 雷 数据 科学 中 心 的 支持 。 此 外 ， 苏 黎 世 联邦 理工 
学 院 的 J 布 曼 提供 了 其 他 的 计算 资源 。 该 工作 还 得 到 西班牙 项 目 TIN2016-74946-P 和 
CERCA 计划 /加 泰 罗 尼 亚 政府 的 部 分 支持 。 另 外 ， 所 发 布 的 数据 集 主 要 挑选 自 志愿 者 
所 捐赠 〈 或 对 公开 数据 集 进行 格式 调整 后 ) 的 72 个 数据 集 ， 志 愿 者 主要 包括 本 章 的 共 
同 作者 及 Y. 阿 菲 尼 亚 纳 普 洪 斯 、O. 查 佩 尔 、Z. BAUER BORA. V. 勒 迈 尔 、C.J. 林 、 
M. 马达 尼 、G. BER AER, H.J RRA. 察 马尔 迪 诺 斯 等 人 。 在 挑战 赛 协 议 的 早 
期 设计 和 挑战 赛 平台 的 测试 中 , 很 多 人 提供 了 极 具 价值 的 反馈 ,主要 有 KK. 班 内 特 、C. E 
佩 尼 、G. 考 利 、R. 卡 鲁 阿 纳 、G. 德 罗 、T. K. €. B. 凯 格 尔 、H. 拉 罗 切 勒 、V. 勒 迈 尔 、 
C. J. M. V. E e HM. N. 马 西亚 、S. 梅 西 尔 、F. 波 佩斯 库 、D. 斯 尔 沃 、S. 特 
ERRAL 察 马尔 迪 诺 斯 等 。 为 实现 Codalab 平台 和 示例 代码 做 出 贡献 的 软件 开发 者 有 
E. 卡 迈 克 尔 、I. BEALL 贾 德 森 、C. 普 卢 因 、P. 3E. A. ME L 罗马 什 科 、X. 巴 罗 。 索 
3E. E. RRR F. 津 格 里 和 M. 日 斯 科 夫 斯 基 等 。I. 查 巴 内 、J. 劳 埃 德 、N. 马 西亚 和 A. 塔 
库 尔 对 挑战 赛 结果 进 行 了 初步 分 析 ， 涵 盖 在 本 章 内 容 之 中 。 卡 瑟 琳 娜 。 埃 根 斯 珀 格 、 赛 
WKP + 阿里 和 马 蒂 亚 斯 。 费 勒 帮助 组 织 了 “打败 Auto-sklearn ”挑战 赛 。 马 蒂 亚 斯 。 费 
勒 同 时 为 在 挑战 赛 2015/2016 数据 集 上 运行 Auto-sklearn 的 仿真 做 出 了 贡献 。 
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